Spaces:

srikrishna2005
/

openenv

Running

openenv / train.py

sentinel-space-publisher

space: publish latest Sentinel app snapshot

c452421 13 days ago

47.8 kB

	"""
	train.py - GRPO Fine-tuning for OpenEnv (IRT / SENTINEL)
	==============================================================
	Runnable training script. Uses TRL GRPOTrainer + Unsloth (optional) + curriculum.

	HOW TO RUN:
	# Minimum (T4 / A10G, no Unsloth):
	python train.py

	# With Unsloth (A100 / H100, 2x faster):
	USE_UNSLOTH=1 python train.py

	# Override model and steps:
	MODEL_NAME=unsloth/Qwen3-30B-A3B-bnb-4bit TRAIN_STEPS=200 python train.py

	# Resume from checkpoint:
	RESUME_FROM=outputs/checkpoints/checkpoint-100 python train.py

	ENV VARS:
	MODEL_NAME HuggingFace model ID (default: unsloth/Qwen3-30B-A3B-bnb-4bit)
	HF_TOKEN HuggingFace token (for gated models)
	GROQ_API_KEY Groq API key (for LLM judge panel, optional)
	WANDB_PROJECT W&B project name (optional, set to "" to disable)
	TRAIN_STEPS Number of GRPO training steps (default: 200)
	NUM_GENERATIONS G rollouts per prompt (default: 4)
	USE_UNSLOTH Set to "1" to use Unsloth (requires unsloth installed)
	RESUME_FROM Path to checkpoint to resume from
	OUTPUT_DIR Where to save checkpoints (default: outputs/checkpoints)
	LR Learning rate (default: 5e-6)
	KL_COEF KL penalty coefficient (default: 0.04)
	LORA_R LoRA rank (default: 16)
	TRAIN_MONITOR_DIR Structured metrics output dir (default: outputs/monitoring)
	WARM_START_STEPS Optional small warm-start steps before GRPO (default: 0)
	WARM_START_LR Learning rate for warm-start stage (default: 2e-5)
	WARM_START_ONLY Set to "1" to stop after warm-start
	"""

	from __future__ import annotations

	import json
	import logging
	import math
	import os
	import platform
	import sys
	import time
	from dataclasses import dataclass, field
	from importlib import metadata as importlib_metadata
	from pathlib import Path
	from typing import Any, Dict, List, Optional, Tuple

	import numpy as np
	try:
	import torch
	from torch.utils.data import Dataset as TorchDataset
	except ModuleNotFoundError:
	torch = None

	class TorchDataset: # type: ignore[no-redef]
	"""Fallback base for tests that import train.py without training deps."""

	pass

	# bnb-4bit pre-quantized models have compute_dtype=float16 baked in, so LoRA
	# adapter parameters and their gradients are FP16. PyTorch 2.10 added a strict
	# check in GradScaler._unscale_grads_ that rejects FP16 gradients (intended for
	# full-precision training where FP16 grads indicate a misconfiguration). For
	# bnb-4bit + LoRA this check is a false positive — patch it out.
	if torch is not None:
	import torch.amp.grad_scaler as _gs
	_orig_unscale_grads = _gs.GradScaler._unscale_grads_

	def _allow_fp16_unscale(self, optimizer, inv_scale, found_inf, allow_fp16):
	return _orig_unscale_grads(self, optimizer, inv_scale, found_inf, True)

	_gs.GradScaler._unscale_grads_ = _allow_fp16_unscale

	# Re-export from extracted modules for backward compatibility
	from training.metrics import (
	safe_ratio as _safe_ratio,
	_increment_counter,
	_normalize_completion_text,
	_extract_completion_choice,
	_shannon_entropy_from_labels,
	summarize_sentinel_history as _summarize_sentinel_history,
	aggregate_batch_metrics as _aggregate_batch_metrics,
	completion_diversity_metrics as _completion_diversity_metrics,
	productive_signal_metrics as _productive_signal_metrics,
	training_coverage_metrics as _training_coverage_metrics,
	zero_gradient_group_metrics as _zero_gradient_group_metrics,
	frontier_scenario_keys as _frontier_scenario_keys,
	set_thresholds as _set_metric_thresholds,
	)
	from training.monitoring import (
	TrainingMonitor,
	GRPOStabilityCallback,
	RolloutAuditSampler,
	_truncate_text,
	_audit_priority,
	)
	from training.prompts import (
	build_system_prompt,
	scenario_to_prompt,
	sentinel_obs_to_prompt,
	sentinel_adversarial_case_to_prompt,
	build_prompt_record as _build_prompt_record_impl,
	memory_context_for_task as _memory_context_for_task,
	load_or_create_sentinel_adversarial_cases as _load_or_create_sentinel_adversarial_cases_impl,
	AdaptivePromptState as _AdaptivePromptStateBase,
	AdaptivePromptDataset,
	WarmStartDataset,
	build_grpo_dataset as _build_grpo_dataset_impl,
	)
	from training.episodes import (
	parse_action as _parse_action,
	greedy_fallback_action as _greedy_fallback_action,
	greedy_fallback_sentinel_decision as _greedy_fallback_sentinel_decision,
	run_episode_with_completion as _run_episode_with_completion_impl,
	_run_irt_episode,
	_run_sentinel_episode,
	run_sentinel_adversarial_case as _run_sentinel_adversarial_case,
	grpo_reward_fn as _grpo_reward_fn_impl,
	trajectory_summary_from_history as _trajectory_summary_from_history,
	mistakes_from_history as _mistakes_from_history,
	mistake_cards_from_history as _mistake_cards_from_history,
	successes_from_history as _successes_from_history,
	)
	from training.curriculum import CURRICULUM_FRONTIER_FAILURE_RATE

	MODEL_NAME = os.getenv("MODEL_NAME", "unsloth/Qwen3-30B-A3B-bnb-4bit")
	HF_TOKEN = os.getenv("HF_TOKEN", "")
	GROQ_API_KEY = os.getenv("GROQ_API_KEY", "")
	WANDB_PROJECT = os.getenv("WANDB_PROJECT", "").strip()
	TRAIN_STEPS = int(os.getenv("TRAIN_STEPS", "100"))
	NUM_GENERATIONS = int(os.getenv("NUM_GENERATIONS", "2"))
	USE_UNSLOTH = os.getenv("USE_UNSLOTH", "1") == "1"
	RESUME_FROM = os.getenv("RESUME_FROM", "")
	OUTPUT_DIR = os.getenv("OUTPUT_DIR", "outputs/checkpoints")
	LR = float(os.getenv("LR", "5e-6"))
	KL_COEF = float(os.getenv("KL_COEF", "0.04"))
	LORA_R = int(os.getenv("LORA_R", "16"))
	MAX_NEW_TOKENS = int(os.getenv("MAX_NEW_TOKENS", "512"))
	PROMPT_DATASET_SIZE = int(os.getenv("PROMPT_DATASET_SIZE", str(max(512, TRAIN_STEPS * 8))))
	USE_LLM_PANEL = bool(GROQ_API_KEY) # auto-enable if key available
	USE_CURRICULUM = os.getenv("USE_CURRICULUM", "1") == "1"
	GEN_TEMPERATURE = float(os.getenv("GEN_TEMPERATURE", "0.7"))
	GEN_TOP_P = float(os.getenv("GEN_TOP_P", "1.0"))
	USE_SENTINEL = os.getenv("USE_SENTINEL", "0") == "1" # Enable SENTINEL training
	USE_AGENT_MEMORY = os.getenv("USE_AGENT_MEMORY", "1") == "1"
	USE_FEEDBACK_MEMORY = os.getenv("USE_FEEDBACK_MEMORY", "1") == "1" and USE_AGENT_MEMORY
	USE_SENTINEL_ADVERSARIAL = os.getenv("USE_SENTINEL_ADVERSARIAL", "1") == "1"
	SENTINEL_ADVERSARIAL_PATH = os.getenv(
	"SENTINEL_ADVERSARIAL_PATH",
	"outputs/sentinel_adversarial_cases.json",
	)
	SENTINEL_FEEDBACK_MEMORY_PATH = os.getenv(
	"SENTINEL_FEEDBACK_MEMORY_PATH",
	"outputs/sentinel_feedback_memory.json",
	)
	TRAIN_MONITOR_DIR = os.getenv("TRAIN_MONITOR_DIR", "outputs/monitoring")
	WARM_START_STEPS = int(os.getenv("WARM_START_STEPS", "0"))
	WARM_START_LR = float(os.getenv("WARM_START_LR", "2e-5"))
	WARM_START_DATASET_SIZE = int(os.getenv("WARM_START_DATASET_SIZE", "24"))
	WARM_START_OUTPUT_DIR = os.getenv("WARM_START_OUTPUT_DIR", "outputs/warm_start")
	WARM_START_ONLY = os.getenv("WARM_START_ONLY", "0") == "1"
	ROLLOUT_AUDIT_DIR = os.getenv("ROLLOUT_AUDIT_DIR", os.path.join(TRAIN_MONITOR_DIR, "rollout_audits"))
	ROLLOUT_AUDIT_EVERY = int(os.getenv("ROLLOUT_AUDIT_EVERY", "10"))
	ROLLOUT_AUDIT_SAMPLES = int(os.getenv("ROLLOUT_AUDIT_SAMPLES", "2"))
	REWARD_SCHEDULE_MODE = os.getenv("REWARD_SCHEDULE_MODE", os.getenv("REWARD_PROFILE", "dynamic"))
	MODEL_STEPS_LIMIT = int(os.getenv("MODEL_STEPS_LIMIT", "1"))
	KL_TARGET = float(os.getenv("KL_TARGET", "0.08"))
	KL_ADAPTIVE = os.getenv("KL_ADAPTIVE", "1") == "1"
	KL_LOW_FACTOR = float(os.getenv("KL_LOW_FACTOR", "1.5"))
	KL_HIGH_FACTOR = float(os.getenv("KL_HIGH_FACTOR", "1.5"))
	KL_BETA_UP_MULT = float(os.getenv("KL_BETA_UP_MULT", "2.0"))
	KL_BETA_DOWN_MULT = float(os.getenv("KL_BETA_DOWN_MULT", "0.5"))
	KL_MIN_BETA = float(os.getenv("KL_MIN_BETA", "0.005"))
	KL_MAX_BETA = float(os.getenv("KL_MAX_BETA", "0.5"))
	KL_HARD_STOP_ENABLED = os.getenv("KL_HARD_STOP_ENABLED", "0") == "1"
	KL_HARD_STOP_MULT = float(os.getenv("KL_HARD_STOP_MULT", "3.0"))
	ZERO_SIGNAL_REWARD_THRESHOLD = float(os.getenv("ZERO_SIGNAL_REWARD_THRESHOLD", "0.05"))
	TRIVIAL_REWARD_THRESHOLD = float(os.getenv("TRIVIAL_REWARD_THRESHOLD", "0.95"))

	TASK_IDS = [
	"severity_classification",
	"root_cause_analysis",
	"full_incident_management",
	]

	SENTINEL_TASK_IDS = [
	"basic_oversight",
	"fleet_monitoring_conflict",
	"adversarial_worker",
	"multi_crisis_command",
	]


	def _parse_task_filter(env_name: str, allowed: List[str]) -> List[str]:
	raw = os.getenv(env_name, "").strip()
	if not raw:
	return list(allowed)
	selected = [part.strip() for part in raw.split(",") if part.strip()]
	unknown = [task_id for task_id in selected if task_id not in allowed]
	if unknown:
	raise ValueError(
	f"{env_name} contains unknown task id(s): {unknown}. "
	f"Allowed: {allowed}"
	)
	return selected or list(allowed)


	TASK_IDS = _parse_task_filter("IRT_TASKS", TASK_IDS)
	SENTINEL_TASK_IDS = _parse_task_filter("SENTINEL_TASKS", SENTINEL_TASK_IDS)

	# Select task set based on USE_SENTINEL flag
	ACTIVE_TASK_IDS = SENTINEL_TASK_IDS if USE_SENTINEL else TASK_IDS

	os.makedirs(OUTPUT_DIR, exist_ok=True)
	os.makedirs("outputs/reward_curves", exist_ok=True)
	os.makedirs(TRAIN_MONITOR_DIR, exist_ok=True)

	logging.basicConfig(
	level = logging.INFO,
	format = "%(asctime)s %(levelname)s %(name)s: %(message)s",
	handlers=[
	logging.StreamHandler(sys.stdout),
	logging.FileHandler(os.path.join(OUTPUT_DIR, "train.log")),
	],
	)
	logger = logging.getLogger(__name__)


	def _package_version(name: str) -> str:
	try:
	return importlib_metadata.version(name)
	except importlib_metadata.PackageNotFoundError:
	return "missing"


	def collect_training_stack_versions() -> Dict[str, Any]:
	cuda_available = bool(torch is not None and torch.cuda.is_available())
	return {
	"python": platform.python_version(),
	"platform": platform.platform(),
	"model_name": MODEL_NAME,
	"use_unsloth": USE_UNSLOTH,
	"cuda_available": cuda_available,
	"bf16_available": bool(cuda_available and torch.cuda.is_bf16_supported()),
	"train_steps": TRAIN_STEPS,
	"warm_start_steps": WARM_START_STEPS,
	"reward_schedule_mode": REWARD_SCHEDULE_MODE,
	"memory": {
	"agent_memory_enabled": USE_AGENT_MEMORY,
	"feedback_memory_enabled": USE_FEEDBACK_MEMORY,
	},
	"productive_signal_thresholds": {
	"zero_signal_reward_threshold": ZERO_SIGNAL_REWARD_THRESHOLD,
	"trivial_reward_threshold": TRIVIAL_REWARD_THRESHOLD,
	},
	"adaptive_curriculum": {
	"frontier_failure_rate": CURRICULUM_FRONTIER_FAILURE_RATE,
	},
	"kl_control": {
	"initial_beta": KL_COEF,
	"target": KL_TARGET,
	"adaptive": KL_ADAPTIVE,
	"low_factor": KL_LOW_FACTOR,
	"high_factor": KL_HIGH_FACTOR,
	"beta_up_mult": KL_BETA_UP_MULT,
	"beta_down_mult": KL_BETA_DOWN_MULT,
	"min_beta": KL_MIN_BETA,
	"max_beta": KL_MAX_BETA,
	"hard_stop_enabled": KL_HARD_STOP_ENABLED,
	"hard_stop_mult": KL_HARD_STOP_MULT,
	},
	"packages": {
	"torch": getattr(torch, "__version__", "missing") if torch is not None else "missing",
	"bitsandbytes": _package_version("bitsandbytes"),
	"transformers": _package_version("transformers"),
	"peft": _package_version("peft"),
	"trl": _package_version("trl"),
	"datasets": _package_version("datasets"),
	"matplotlib": _package_version("matplotlib"),
	"wandb": _package_version("wandb"),
	"openenv-core": _package_version("openenv-core"),
	"unsloth": _package_version("unsloth"),
	},
	}

	# ---------------------------------------------------------------------------
	# W&B setup (optional)
	# ---------------------------------------------------------------------------

	wandb_enabled = bool(WANDB_PROJECT) and WANDB_PROJECT.lower() not in {"0", "false", "none", "disabled"}
	if wandb_enabled:
	try:
	import wandb
	wandb.init(project=WANDB_PROJECT, config={
	"model": MODEL_NAME,
	"train_steps": TRAIN_STEPS,
	"num_generations": NUM_GENERATIONS,
	"lr": LR,
	"kl_coef": KL_COEF,
	"lora_r": LORA_R,
	"use_llm_panel": USE_LLM_PANEL,
	})
	logger.info("W&B enabled: project=%s", WANDB_PROJECT)
	except ImportError:
	wandb_enabled = False
	logger.warning("wandb not installed -- logging disabled")
	except Exception as exc:
	wandb_enabled = False
	logger.warning("wandb init skipped: %s", exc)

	# ---------------------------------------------------------------------------
	# Model loading
	# ---------------------------------------------------------------------------

	def load_model_and_tokenizer():
	"""Load model + tokenizer. Uses Unsloth if USE_UNSLOTH=1, else standard HF.

	When Unsloth is enabled:
	- 12x faster MoE training via Triton kernels (torch._grouped_mm)
	- 3x faster inference via fused attention (FastLanguageModel.for_inference)
	- >35% less VRAM via 4-bit quantization + gradient checkpointing
	"""
	if torch is None:
	raise ImportError(
	"Training requires torch. Install the training extras before running train.py."
	)

	if USE_UNSLOTH:
	logger.info("Loading model with Unsloth: %s", MODEL_NAME)
	from unsloth import FastLanguageModel
	# IMPORTANT: keep dtype=float16 for bnb-4bit. The pre-quantized
	# unsloth/*-bnb-4bit models have compute_dtype=float16 baked into their
	# quantization config. Unsloth's fast_lora kernels use X.dtype as the
	# target dtype for LoRA ops; if X is BF16 but bnb dequant output is FP16
	# the addmm_ inside matmul_lora crashes with "same dtype" error.
	_unsloth_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
	model, tokenizer = FastLanguageModel.from_pretrained(
	model_name = MODEL_NAME,
	max_seq_length = 4096,
	dtype = _unsloth_dtype,
	load_in_4bit = True,
	token = HF_TOKEN or None,
	)
	model = FastLanguageModel.get_peft_model(
	model,
	r = LORA_R,
	target_modules = ["q_proj","k_proj","v_proj","o_proj",
	"gate_proj","up_proj","down_proj"],
	lora_alpha = LORA_R,
	lora_dropout = 0,
	bias = "none",
	use_gradient_checkpointing = "unsloth",
	random_state = 42,
	)
	# Enable Unsloth fast inference (2-3x speedup for generation)
	# GRPOTrainer internally handles train/eval mode toggling, but
	# setting this up front ensures optimized attention kernels are
	# compiled and ready for the first rollout batch.
	try:
	FastLanguageModel.for_inference(model)
	logger.info("Unsloth fast inference enabled (fused attention kernels)")
	except Exception as exc:
	logger.warning("Unsloth fast inference setup skipped: %s", exc)
	else:
	logger.info("Loading model with standard HF: %s", MODEL_NAME)
	from transformers import AutoModelForCausalLM, AutoTokenizer
	from peft import LoraConfig, get_peft_model

	cuda_available = torch.cuda.is_available()
	bf16_available = cuda_available and torch.cuda.is_bf16_supported()

	load_kwargs: Dict[str, Any] = {
	"torch_dtype": torch.bfloat16 if bf16_available else (torch.float16 if cuda_available else torch.float32),
	"device_map" : "auto" if cuda_available else None,
	}
	if "bnb-4bit" in MODEL_NAME or "4bit" in MODEL_NAME:
	from transformers import BitsAndBytesConfig
	load_kwargs["quantization_config"] = BitsAndBytesConfig(
	load_in_4bit = True,
	bnb_4bit_use_double_quant = True,
	bnb_4bit_quant_type = "nf4",
	bnb_4bit_compute_dtype = torch.bfloat16,
	)
	load_kwargs.pop("torch_dtype", None)

	if HF_TOKEN:
	load_kwargs["token"] = HF_TOKEN

	tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, token=HF_TOKEN or None)
	model = AutoModelForCausalLM.from_pretrained(MODEL_NAME, **load_kwargs)

	lora_config = LoraConfig(
	r = LORA_R,
	lora_alpha = LORA_R,
	target_modules = ["q_proj","k_proj","v_proj","o_proj"],
	lora_dropout = 0.05,
	bias = "none",
	task_type = "CAUSAL_LM",
	)
	model = get_peft_model(model, lora_config)
	model.print_trainable_parameters()

	if tokenizer.pad_token is None:
	tokenizer.pad_token = tokenizer.eos_token
	tokenizer.padding_side = "left"

	if RESUME_FROM:
	logger.info("Resuming from checkpoint: %s", RESUME_FROM)
	from peft import PeftModel
	model = PeftModel.from_pretrained(model, RESUME_FROM)

	return model, tokenizer


	# ---------------------------------------------------------------------------
	# Dataset construction
	# ---------------------------------------------------------------------------


	# ---------------------------------------------------------------------------
	# Backward-compatible re-exports for tests
	AdaptivePromptState = _AdaptivePromptStateBase
	build_prompt_record = _build_prompt_record_impl
	build_grpo_dataset = _build_grpo_dataset_impl
	_load_or_create_sentinel_adversarial_cases = _load_or_create_sentinel_adversarial_cases_impl
	_aggregate_batch_metrics = _aggregate_batch_metrics
	_sentinel_history_entry = None # re-exported below

	def _sentinel_history_entry_fn(decision, result):
	from training.episodes import _sentinel_history_entry as _she
	return _she(decision, result)

	_sentinel_history_entry = _sentinel_history_entry_fn

	# Thin wrappers delegating to extracted modules
	# ---------------------------------------------------------------------------

	# Prompt construction
	def _build_system_prompt(task_id, memory_context=""):
	return build_system_prompt(task_id, SENTINEL_TASK_IDS, memory_context)

	def _scenario_to_prompt(scenario, task_id, memory_context=""):
	return scenario_to_prompt(scenario, task_id, SENTINEL_TASK_IDS, memory_context)

	def _sentinel_obs_to_prompt(obs, task_id, memory_context=""):
	return sentinel_obs_to_prompt(obs, task_id, SENTINEL_TASK_IDS, memory_context)

	# Episode execution
	def run_episode_with_completion(completion_text, task_id, variant_seed):
	return _run_episode_with_completion_impl(
	completion_text, task_id, variant_seed, SENTINEL_TASK_IDS,
	model_steps_limit=MODEL_STEPS_LIMIT,
	)

	def grpo_reward_fn(prompts, completions, **kwargs):
	return _grpo_reward_fn_impl(
	prompts, completions,
	sentinel_task_ids=SENTINEL_TASK_IDS,
	active_task_ids=list(ACTIVE_TASK_IDS),
	use_llm_panel=USE_LLM_PANEL,
	groq_api_key=GROQ_API_KEY,
	wandb_enabled=wandb_enabled,
	model_steps_limit=MODEL_STEPS_LIMIT,
	**kwargs,
	)

	# Warm-start helpers
	def _warm_start_counterfactual(obs, decision):
	constitution = obs.constitutional_assessment or {}
	violations = list((constitution.get("constitutional_violations") or {}).keys())
	if decision.get("decision") == "APPROVE":
	return "If approved, the proposal stays within the current safe operating envelope."
	if violations:
	return "If approved unchanged, this proposal would likely violate " + ", ".join(violations) + " and increase operational risk."
	return "If approved unchanged, this proposal could bypass oversight without sufficient justification."

	def _warm_start_sentinel_decision_for_observation(obs):
	decision = dict(_greedy_fallback_sentinel_decision(obs, []))
	violations = sorted((obs.constitutional_assessment.get("constitutional_violations") or {}).keys())
	decision.setdefault("worker_message", "Approved. Execute carefully and preserve evidence.")
	for key in ["required_evidence", "redirect_action", "reassign_to", "flag_severity", "suggested_action_type", "suggested_target"]:
	decision.setdefault(key, [] if key == "required_evidence" else None)
	decision.setdefault("suggested_parameters", {})
	decision["constitutional_violations"] = violations
	decision["counterfactual"] = _warm_start_counterfactual(obs, decision)
	return decision

	def _build_warm_start_examples(task_ids, memory_context="", memory=None, feedback_memory=None, max_examples=None, max_seeds=3):
	if max_examples is None: max_examples = WARM_START_DATASET_SIZE
	records = []
	for task_id in task_ids:
	for seed in range(max_seeds):
	task_memory = _memory_context_for_task(memory, feedback_memory, task_id, memory_context)
	if task_id in SENTINEL_TASK_IDS:
	from sentinel.environment import SentinelEnv
	env = SentinelEnv()
	obs = env.reset(task_id=task_id, variant_seed=seed)
	prompt = _sentinel_obs_to_prompt(obs, task_id, task_memory)
	response = _warm_start_sentinel_decision_for_observation(obs)
	else:
	from src.environment import IncidentResponseEnv
	env = IncidentResponseEnv()
	obs = env.reset(task_id=task_id, variant_seed=seed)
	prompt = _scenario_to_prompt(env._scenario, task_id, task_memory)
	response = _greedy_fallback_action(env, obs, [])
	records.append({"task_id": task_id, "variant_seed": seed, "text": prompt + json.dumps(response, sort_keys=True)})
	if len(records) >= max_examples: return records
	if records and len(records) < max_examples:
	cycled = []
	idx = 0
	while len(records) + len(cycled) < max_examples:
	cycled.append(dict(records[idx % len(records)]))
	idx += 1
	records.extend(cycled)
	return records[:max_examples]

	def _run_small_warm_start(model, tokenizer, prompt_state):
	from transformers import Trainer, TrainingArguments
	output_dir = Path(WARM_START_OUTPUT_DIR)
	output_dir.mkdir(parents=True, exist_ok=True)
	examples = _build_warm_start_examples(task_ids=list(ACTIVE_TASK_IDS), memory_context=prompt_state.memory_context, memory=prompt_state.memory, feedback_memory=prompt_state.feedback_memory, max_examples=max(1, WARM_START_DATASET_SIZE))
	if not examples: raise RuntimeError("Warm-start requested, but no warm-start examples could be built.")
	preview = [{"task_id": r["task_id"], "variant_seed": r["variant_seed"], "text_preview": str(r["text"])[:240]} for r in examples[:5]]
	(output_dir / "dataset_preview.json").write_text(json.dumps(preview, indent=2), encoding="utf-8")
	dataset = WarmStartDataset([r["text"] for r in examples], tokenizer)
	args = TrainingArguments(
	output_dir=str(output_dir),
	per_device_train_batch_size=1,
	gradient_accumulation_steps=4,
	learning_rate=WARM_START_LR,
	max_steps=max(1, WARM_START_STEPS),
	num_train_epochs=1,
	logging_steps=1,
	save_strategy="no",
	remove_unused_columns=False,
	bf16=False,
	fp16=torch.cuda.is_available(),
	report_to="wandb" if wandb_enabled else "none",
	)
	trainer = Trainer(model=model, args=args, train_dataset=dataset)
	trainer.train()
	final_dir = output_dir / "final"
	trainer.save_model(str(final_dir))
	tokenizer.save_pretrained(str(final_dir))
	summary = {"enabled": True, "steps": max(1, WARM_START_STEPS), "learning_rate": WARM_START_LR, "dataset_size": len(examples), "output_dir": str(output_dir), "saved_model_path": str(final_dir), "task_ids": list(ACTIVE_TASK_IDS)}
	(output_dir / "summary.json").write_text(json.dumps(summary, indent=2), encoding="utf-8")
	logger.info("Warm-start complete: steps=%d dataset=%d saved=%s", summary["steps"], summary["dataset_size"], final_dir)
	return summary

	def train():
	logger.info("=" * 60)
	logger.info("OpenEnv GRPO Training")
	logger.info("Model: %s", MODEL_NAME)
	logger.info("Steps: %d", TRAIN_STEPS)
	logger.info("G: %d rollouts/prompt", NUM_GENERATIONS)
	logger.info("LR: %g", LR)
	logger.info("KL coef: %g", KL_COEF)
	logger.info("LoRA r: %d", LORA_R)
	logger.info("LLM panel: %s", USE_LLM_PANEL)
	logger.info("Curriculum: %s", USE_CURRICULUM)
	logger.info("Sampling: temperature=%.2f top_p=%.2f", GEN_TEMPERATURE, GEN_TOP_P)
	logger.info("Episode: MODEL_STEPS_LIMIT=%d MAX_NEW_TOKENS=%d", MODEL_STEPS_LIMIT, MAX_NEW_TOKENS)
	logger.info("EvalMinDif: %s", os.getenv("EVAL_MIN_DIFFICULTY", "0.0"))
	logger.info("Warm start: %s", WARM_START_STEPS if WARM_START_STEPS > 0 else "disabled")
	logger.info("Reward schedule: %s", REWARD_SCHEDULE_MODE if USE_SENTINEL else "n/a")
	logger.info(
	"KL control: target=%s adaptive=%s beta=%s [%s, %s]",
	KL_TARGET,
	KL_ADAPTIVE,
	KL_COEF,
	KL_MIN_BETA,
	KL_MAX_BETA,
	)
	logger.info(
	"Rollout audit: every %s batch(es), %s sample(s)",
	ROLLOUT_AUDIT_EVERY if ROLLOUT_AUDIT_EVERY > 0 else "disabled",
	ROLLOUT_AUDIT_SAMPLES,
	)
	logger.info("Output: %s", OUTPUT_DIR)
	logger.info("=" * 60)

	# Load model
	model, tokenizer = load_model_and_tokenizer()

	# Load curriculum and agent memory
	from training.curriculum import get_curriculum
	from training.memory import (
	load_agent_memory, build_memory_context, maybe_consolidate_memory,
	record_episode as mem_record_episode, save_agent_memory,
	memory_summary as summarize_agent_memory, new_agent_memory,
	)
	from sentinel.feedback import (
	load_feedback_memory,
	empty_feedback_memory,
	record_episode_feedback,
	save_feedback_memory,
	)
	from sentinel.rewards import reset_reward_weights, scheduled_reward_weights, set_reward_weights

	curriculum = get_curriculum(active_task_ids=ACTIVE_TASK_IDS) if USE_CURRICULUM else None
	memory = load_agent_memory() if USE_AGENT_MEMORY else new_agent_memory()
	feedback_memory = (
	load_feedback_memory(SENTINEL_FEEDBACK_MEMORY_PATH)
	if USE_FEEDBACK_MEMORY
	else empty_feedback_memory()
	)
	memory_ctx = build_memory_context(memory) if USE_AGENT_MEMORY else ""
	prompt_state = _AdaptivePromptStateBase(
	task_ids=list(ACTIVE_TASK_IDS),
	sentinel_task_ids=list(SENTINEL_TASK_IDS),
	curriculum=curriculum,
	memory=memory,
	feedback_memory=feedback_memory,
	memory_context=memory_ctx,
	memory_enabled=USE_AGENT_MEMORY,
	max_seeds=5,
	use_sentinel=USE_SENTINEL,
	use_feedback_memory=USE_FEEDBACK_MEMORY,
	use_llm_panel=USE_LLM_PANEL,
	groq_api_key=GROQ_API_KEY,
	sentinel_adversarial_path=SENTINEL_ADVERSARIAL_PATH,
	sentinel_feedback_memory_path=SENTINEL_FEEDBACK_MEMORY_PATH,
	use_sentinel_adversarial=USE_SENTINEL_ADVERSARIAL,
	)
	if USE_SENTINEL and USE_SENTINEL_ADVERSARIAL:
	prompt_state.refresh_adversarial_cases()

	train_dataset = AdaptivePromptDataset(
	state=prompt_state,
	total_samples=PROMPT_DATASET_SIZE,
	)
	training_monitor = TrainingMonitor(TRAIN_MONITOR_DIR)
	training_monitor.write_stack_versions(collect_training_stack_versions())
	rollout_auditor = RolloutAuditSampler(
	output_dir=ROLLOUT_AUDIT_DIR,
	every=ROLLOUT_AUDIT_EVERY,
	sample_limit=ROLLOUT_AUDIT_SAMPLES,
	)

	warm_start_summary: Optional[Dict[str, Any]] = None
	warm_start_path = os.path.join(WARM_START_OUTPUT_DIR, "final")
	if WARM_START_STEPS > 0 and os.path.isdir(warm_start_path):
	logger.info("Warm-start checkpoint found at %s — SKIPPING (saves ~20 min)", warm_start_path)
	# Reload the warm-start LoRA weights
	try:
	from peft import PeftModel
	if not hasattr(model, "peft_config"):
	model = PeftModel.from_pretrained(model, warm_start_path)
	# Coerce LoRA adapter dtype to fp16 to match the bnb-4bit base
	# compute dtype. bnb-4bit base weights are unaffected by .to();
	# only the (small) LoRA adapters get cast. Prevents the
	# "self and mat2 must have the same dtype" crash inside Unsloth's
	# fast_lora kernels (which derive target dtype from X.dtype = fp16).
	if torch.cuda.is_available():
	for name, param in model.named_parameters():
	if "lora_" in name and param.dtype != torch.float16:
	param.data = param.data.to(torch.float16)
	logger.info("Loaded warm-start LoRA from %s", warm_start_path)
	except Exception as exc:
	logger.warning("Could not reload warm-start LoRA: %s (continuing with base model)", exc)
	warm_start_summary = {"saved_model_path": warm_start_path, "skipped": True}
	elif WARM_START_STEPS > 0:
	warm_start_summary = _run_small_warm_start(model, tokenizer, prompt_state)
	if WARM_START_ONLY:
	return warm_start_summary["saved_model_path"]

	# GRPO config
	from trl import GRPOConfig, GRPOTrainer

	grpo_config = GRPOConfig(
	output_dir = OUTPUT_DIR,
	num_train_epochs = 1,
	per_device_train_batch_size = NUM_GENERATIONS,
	gradient_accumulation_steps = 1,
	num_generations = NUM_GENERATIONS,
	max_completion_length = MAX_NEW_TOKENS,
	learning_rate = LR,
	beta = KL_COEF,
	temperature = GEN_TEMPERATURE,
	top_p = GEN_TOP_P,
	logging_steps = 1,
	save_steps = 25,
	save_total_limit = 4,
	dataloader_num_workers = 0,
	bf16 = False,
	fp16 = torch.cuda.is_available(),
	report_to = "wandb" if wandb_enabled else "none",
	max_steps = TRAIN_STEPS,
	)



	# Wrap reward fn to inject curriculum-selected task_ids and seeds
	def reward_fn_with_curriculum(prompts, completions, **kwargs):
	# Extract task_id and variant_seed from dataset columns if available
	t_ids = kwargs.get("task_id", [ACTIVE_TASK_IDS[0]] * len(prompts))
	v_seeds = kwargs.get("variant_seed", [0] * len(prompts))
	adv_cases = kwargs.get("adversarial_case", [""] * len(prompts))
	curriculum_snapshot = curriculum.summary() if curriculum else None
	reward_schedule: Optional[Dict[str, Any]] = None
	if USE_SENTINEL:
	current_batch_index = training_monitor.batch_index + 1
	progress = min(1.0, current_batch_index / max(1, TRAIN_STEPS))
	reward_schedule = scheduled_reward_weights(
	progress=progress,
	mode=REWARD_SCHEDULE_MODE,
	)
	set_reward_weights(reward_schedule["weights"])

	rewards, histories = grpo_reward_fn(
	prompts = prompts,
	completions = completions,
	task_id = t_ids,
	variant_seed = v_seeds,
	adversarial_case = adv_cases,
	return_histories = True,
	**{k: v for k, v in kwargs.items() if k not in ("task_id", "variant_seed", "adversarial_case")},
	)

	for i, r in enumerate(rewards):
	t_id = t_ids[i] if i < len(t_ids) else ACTIVE_TASK_IDS[0]
	seed = v_seeds[i] if i < len(v_seeds) else 0
	history = histories[i] if i < len(histories) else []
	prompt_state.update_after_episode(
	task_id=t_id,
	variant_seed=seed,
	reward=r,
	history=history,
	mem_record_episode=mem_record_episode,
	record_episode_feedback=record_episode_feedback,
	save_agent_memory=save_agent_memory,
	save_feedback_memory=save_feedback_memory,
	maybe_consolidate_memory=maybe_consolidate_memory,
	)

	nonlocal memory
	memory = prompt_state.memory
	nonlocal feedback_memory
	feedback_memory = prompt_state.feedback_memory

	monitor_summary = training_monitor.log_batch(
	sentinel_task_ids=list(SENTINEL_TASK_IDS),
	rewards=rewards,
	histories=histories,
	task_ids=[str(task_id) for task_id in t_ids],
	variant_seeds=[int(seed) for seed in v_seeds],
	completions=[str(completion) for completion in completions],
	prompts=[str(prompt) for prompt in prompts],
	adversarial_cases=[str(case) for case in adv_cases],
	curriculum_summary=curriculum_snapshot,
	prompt_refreshes=prompt_state.prompt_refreshes,
	reward_schedule=reward_schedule,
	memory_summary={
	"agent_memory_enabled": USE_AGENT_MEMORY,
	"feedback_memory_enabled": USE_FEEDBACK_MEMORY,
	**summarize_agent_memory(memory),
	},
	)
	audit_path = rollout_auditor.record_batch(
	sentinel_task_ids=list(SENTINEL_TASK_IDS),
	active_task_ids=list(ACTIVE_TASK_IDS),
	batch_index=training_monitor.batch_index,
	prompts=[str(prompt) for prompt in prompts],
	completions=[str(completion) for completion in completions],
	rewards=rewards,
	histories=histories,
	task_ids=[str(task_id) for task_id in t_ids],
	variant_seeds=[int(seed) for seed in v_seeds],
	monitor_summary=monitor_summary,
	reward_schedule=reward_schedule,
	)

	if curriculum and curriculum.should_use_adversarial():
	logger.info(
	"Adversarial trigger: tier=%d mean=%.2f",
	curriculum.tier_index,
	curriculum.summary()["recent_mean_score"],
	)
	try:
	weak_spots = curriculum.weak_spots(top_n=2)
	if USE_SENTINEL and USE_SENTINEL_ADVERSARIAL:
	from training.adversarial import (
	generate_sentinel_adversarial_cases,
	save_sentinel_adversarial_cases,
	)

	cases = generate_sentinel_adversarial_cases(weak_spots, n=4)
	save_sentinel_adversarial_cases(cases, SENTINEL_ADVERSARIAL_PATH)
	prompt_state.sentinel_adversarial_cases = cases
	logger.info("Generated %d SENTINEL adversarial worker cases", len(cases))
	elif GROQ_API_KEY:
	from training.adversarial import AdversarialDesigner

	designer = AdversarialDesigner(api_key=GROQ_API_KEY)
	new_scenarios = designer.generate(weak_spots, n=3)
	designer.save_generated("outputs/adversarial_scenarios.json")
	logger.info("Generated %d adversarial scenarios", len(new_scenarios))
	except Exception as e:
	logger.debug("Adversarial generation failed: %s", e)

	if wandb_enabled:
	import wandb

	wandb_payload = {
	"monitor/reward_mean": monitor_summary["reward_mean"],
	"monitor/avg_steps": monitor_summary["avg_steps"],
	"monitor/running_reward_mean": monitor_summary["running_reward_mean"],
	"monitor/best_reward_mean": monitor_summary["best_reward_mean"],
	"monitor/unique_completion_ratio": monitor_summary.get("unique_completion_ratio", 0.0),
	"monitor/decision_entropy": monitor_summary.get("decision_entropy", 0.0),
	"monitor/decision_variety": monitor_summary.get("decision_variety", 0),
	"monitor/zero_reward_fraction": monitor_summary.get("zero_reward_fraction", 0.0),
	"monitor/trivially_solved_fraction": monitor_summary.get("trivially_solved_fraction", 0.0),
	"monitor/productive_fraction": monitor_summary.get("productive_fraction", 0.0),
	"monitor/effective_prompt_ratio": monitor_summary.get("effective_prompt_ratio", 0.0),
	"monitor/frontier_hit_rate": monitor_summary.get("frontier_hit_rate", 0.0),
	"monitor/task_diversity_ratio": monitor_summary.get("task_diversity_ratio", 0.0),
	"monitor/zero_gradient_group_fraction": monitor_summary.get("zero_gradient_group_fraction", 0.0),
	"monitor/adversarial_case_fraction": monitor_summary.get("adversarial_case_fraction", 0.0),
	}
	if monitor_summary.get("memory"):
	wandb_payload["monitor/memory_total_episodes"] = monitor_summary["memory"].get("total_episodes", 0)
	wandb_payload["monitor/memory_mistake_cards"] = monitor_summary["memory"].get("mistake_cards_stored", 0)
	if USE_SENTINEL:
	wandb_payload.update(
	{
	"monitor/detection_rate": monitor_summary.get("detection_rate", 0.0),
	"monitor/false_positive_rate": monitor_summary.get("false_positive_rate", 0.0),
	"monitor/risk_reduction_rate": monitor_summary.get("risk_reduction_rate", 0.0),
	"monitor/twin_damage_reduction_rate": monitor_summary.get("twin_damage_reduction_rate", 0.0),
	"monitor/twin_without_sentinel_damage_total": monitor_summary.get("twin_without_sentinel_damage_total", 0.0),
	"monitor/twin_with_sentinel_damage_total": monitor_summary.get("twin_with_sentinel_damage_total", 0.0),
	"monitor/worker_rehabilitation_rate": monitor_summary.get("worker_rehabilitation_rate", 0.0),
	"monitor/coaching_quality": monitor_summary.get("coaching_quality", 0.0),
	}
	)
	if reward_schedule:
	wandb_payload.update(
	{
	"monitor/reward_schedule_progress": reward_schedule.get("progress", 0.0),
	"monitor/reward_schedule_stage": reward_schedule.get("stage", "unknown"),
	}
	)
	if audit_path:
	wandb_payload["monitor/rollout_audit_saved"] = 1
	wandb.log(wandb_payload)

	return rewards

	# Create trainer
	trainer = GRPOTrainer(
	model = model,
	processing_class = tokenizer,
	args = grpo_config,
	train_dataset = train_dataset,
	reward_funcs = [reward_fn_with_curriculum],
	)
	stability_callback = GRPOStabilityCallback(
	training_monitor=training_monitor,
	initial_beta=KL_COEF,
	target_kl=KL_TARGET,
	adaptive=KL_ADAPTIVE,
	low_factor=KL_LOW_FACTOR,
	high_factor=KL_HIGH_FACTOR,
	beta_up_mult=KL_BETA_UP_MULT,
	beta_down_mult=KL_BETA_DOWN_MULT,
	min_beta=KL_MIN_BETA,
	max_beta=KL_MAX_BETA,
	hard_stop_enabled=KL_HARD_STOP_ENABLED,
	hard_stop_mult=KL_HARD_STOP_MULT,
	)
	trainer.add_callback(stability_callback)
	stability_callback.bind_trainer(trainer)

	# Train
	logger.info("Starting training...")
	start_time = time.time()
	trainer.train()
	elapsed = time.time() - start_time
	logger.info("Training complete in %.1f minutes", elapsed / 60)

	# Save final model
	final_path = os.path.join(OUTPUT_DIR, "final")
	trainer.save_model(final_path)
	tokenizer.save_pretrained(final_path)
	logger.info("Saved final model to %s", final_path)

	# Save curriculum state
	if curriculum:
	logger.info("Curriculum summary: %s", curriculum.summary())
	if USE_AGENT_MEMORY:
	save_agent_memory(memory)
	if USE_SENTINEL and USE_FEEDBACK_MEMORY:
	save_feedback_memory(feedback_memory, SENTINEL_FEEDBACK_MEMORY_PATH)
	if warm_start_summary:
	logger.info("Warm-start summary: %s", warm_start_summary)
	if USE_SENTINEL:
	reset_reward_weights()

	# Plot reward curve
	_plot_reward_curve()
	try:
	from scripts.render_training_dashboard import render_dashboard

	render_dashboard(
	monitor_dir=TRAIN_MONITOR_DIR,
	output_dir="outputs/reward_curves",
	)
	except Exception as exc:
	logger.warning("Training dashboard render skipped: %s", exc)

	# Push to Hub (if HF_TOKEN set)
	hf_repo = os.getenv("HF_REPO")
	if hf_repo and HF_TOKEN:
	logger.info("Pushing to HuggingFace Hub: %s", hf_repo)
	trainer.model.push_to_hub(hf_repo, token=HF_TOKEN)
	tokenizer.push_to_hub(hf_repo, token=HF_TOKEN)
	logger.info("Done! Update openenv.yaml model: %s", hf_repo)

	if wandb_enabled:
	import wandb
	wandb.finish()

	return final_path


	# ---------------------------------------------------------------------------
	# Reward curve plot
	# ---------------------------------------------------------------------------

	def _plot_reward_curve():
	"""Plot reward/mean over steps from wandb run or log file."""
	try:
	import matplotlib.pyplot as plt

	steps, rewards = [], []
	monitor_path = Path(TRAIN_MONITOR_DIR) / "training_metrics.jsonl"
	if monitor_path.exists():
	with monitor_path.open("r", encoding="utf-8") as handle:
	for line in handle:
	line = line.strip()
	if not line:
	continue
	try:
	payload = json.loads(line)
	except json.JSONDecodeError:
	continue
	steps.append(int(payload.get("batch_index", len(steps) + 1)))
	rewards.append(float(payload.get("reward_mean", 0.0)))
	else:
	log_path = os.path.join(OUTPUT_DIR, "train.log")
	if not os.path.exists(log_path):
	return
	with open(log_path, encoding="utf-8", errors="ignore") as f:
	for line in f:
	if "Batch rewards: mean=" in line:
	try:
	mean_str = line.split("mean=")[1].split(" ")[0]
	steps.append(len(steps) + 1)
	rewards.append(float(mean_str))
	except Exception:
	pass

	if not steps:
	return

	plt.figure(figsize=(10, 5))
	plt.plot(steps, rewards, linewidth=2, color="royalblue")
	plt.xlabel("Training Step")
	plt.ylabel("Mean Reward")
	plt.title("GRPO Training Reward Curve")
	plt.grid(True, alpha=0.3)

	# Smoothed line
	if len(rewards) > 10:
	window = min(10, len(rewards) // 5)
	smoothed = np.convolve(rewards, np.ones(window)/window, mode="valid")
	smooth_steps = steps[:len(smoothed)]
	plt.plot(smooth_steps, smoothed, linewidth=2, color="red",
	linestyle="--", label=f"Smoothed (w={window})")
	plt.legend()

	plot_path = "outputs/reward_curves/training_curve.png"
	plt.savefig(plot_path, dpi=120, bbox_inches="tight")
	plt.close()
	logger.info("Saved reward curve to %s", plot_path)

	except ImportError:
	logger.info("matplotlib not installed - skipping reward plot")
	except Exception as e:
	logger.warning("Could not plot reward curve: %s", e)


	# ---------------------------------------------------------------------------
	# CLI entry point
	# ---------------------------------------------------------------------------

	if __name__ == "__main__":
	import argparse

	parser = argparse.ArgumentParser(description="GRPO training for OpenEnv")
	parser.add_argument("--steps", type=int, default=TRAIN_STEPS, help="Training steps")
	parser.add_argument("--model", type=str, default=MODEL_NAME, help="Model name/path")
	parser.add_argument("--lr", type=float, default=LR, help="Learning rate")
	parser.add_argument("--output", type=str, default=OUTPUT_DIR, help="Output directory")
	parser.add_argument("--resume", type=str, default=RESUME_FROM, help="Checkpoint to resume from")
	parser.add_argument("--warm-start-steps", type=int, default=WARM_START_STEPS, help="Optional small SFT-style warm-start steps before GRPO")
	parser.add_argument("--warm-start-only", action="store_true", help="Run only the warm-start stage and stop before GRPO")
	parser.add_argument("--dry-run", action="store_true", help="Validate setup without training")
	args = parser.parse_args()

	# Override from CLI
	TRAIN_STEPS = args.steps
	MODEL_NAME = args.model
	LR = args.lr
	OUTPUT_DIR = args.output
	RESUME_FROM = args.resume
	WARM_START_STEPS = args.warm_start_steps
	WARM_START_ONLY = args.warm_start_only or WARM_START_ONLY

	if args.dry_run:
	logger.info("DRY RUN: Validating environment and reward function...")

	if USE_SENTINEL:
	from sentinel.environment import SentinelEnv
	env = SentinelEnv()
	for task_id in SENTINEL_TASK_IDS:
	obs = env.reset(task_id=task_id, variant_seed=0)
	grade = env.grade()
	score = float(grade.score) if hasattr(grade, "score") else float(grade.get("score", 0.0))
	logger.info(" task=%s initial_grade=%.3f", task_id, score)
	else:
	from src.environment import IncidentResponseEnv
	env = IncidentResponseEnv()
	for task_id in TASK_IDS:
	obs = env.reset(task_id=task_id, variant_seed=0)
	grade = env.grade()
	score = float(grade.score) if hasattr(grade, "score") else float(grade.get("score", 0.0))
	logger.info(" task=%s initial_grade=%.3f", task_id, score)

	if WARM_START_STEPS > 0:
	from training.memory import load_agent_memory
	from sentinel.feedback import load_feedback_memory

	warm_start_records = _build_warm_start_examples(
	task_ids=list(ACTIVE_TASK_IDS),
	memory=load_agent_memory(),
	feedback_memory=load_feedback_memory(SENTINEL_FEEDBACK_MEMORY_PATH),
	max_examples=max(1, min(WARM_START_DATASET_SIZE, 8)),
	)
	logger.info(" warm_start_examples=%d", len(warm_start_records))

	logger.info("DRY RUN PASSED. Environment is working.")
	sys.exit(0)

	final_path = train()
	logger.info("Training finished. Final model: %s", final_path)
	logger.info("Next steps:")
	logger.info(" 1. python validate.py")
	logger.info(" 2. Update openenv.yaml: model: <HF_REPO>")
	logger.info(" 3. Submit!")