Spaces:

Humanlearning
/

Cyber_analyst-round1

Sleeping

Cyber_analyst-round1 / scripts /modal_train_grpo.py

feat: introduce GRPO GPU fallback support, enhance training script with warmstart tagging, and add learning rate parameter for improved training flexibility

1b6d30b 12 days ago

raw

history blame contribute delete

93.2 kB

	"""Persistent Modal GRPO launcher for CyberSecurity_OWASP.

	This packages the local repository into a Modal GPU image, runs a small
	tool-use GRPO job against the in-process CyberSecurity_OWASP environment, logs
	metrics/traces to Trackio, and saves LoRA checkpoints in a persistent Modal
	volume.

	Example:

	uv run --extra modal modal run scripts/modal_train_grpo.py \
	--max-steps 10 \
	--dataset-size 16 \
	--num-generations 6 \
	--difficulty 0
	"""

	from __future__ import annotations

	import json
	import os
	import pathlib
	import subprocess
	import sys
	from datetime import datetime, timezone
	from typing import Any

	import modal


	APP_NAME = "CyberSecurity_OWASP-grpo"
	VOLUME_NAME = "CyberSecurity_OWASP-grpo-runs"
	CACHE_VOLUME_NAME = "CyberSecurity_OWASP-model-cache"
	SCENARIO_CACHE_VOLUME_NAME = "CyberSecurity_OWASP-scenario-cache"
	SECRET_NAME = "CyberSecurity_OWASP-secrets"
	RUNS_DIR = pathlib.Path("/runs")
	CACHE_DIR = pathlib.Path("/cache")
	SCENARIO_CACHE_DIR = pathlib.Path("/scenario-cache")
	HF_HOME_DIR = CACHE_DIR / "huggingface"
	HF_HUB_CACHE_DIR = HF_HOME_DIR / "hub"
	TORCH_HOME_DIR = CACHE_DIR / "torch"
	XDG_CACHE_DIR = CACHE_DIR / "xdg"
	UNSLOTH_CACHE_DIR = CACHE_DIR / "unsloth"
	TRITON_CACHE_DIR = CACHE_DIR / "triton"
	REMOTE_PROJECT = "/root/CyberSecurity_OWASP"
	PROJECT_ROOT = pathlib.Path(__file__).resolve().parents[1]
	PUBLIC_REPO_URL = "https://github.com/humandotlearning/CyberSecurity_OWASP.git"
	PUBLIC_REPO_BRANCH = "master"
	DEFAULT_GEMMA_MODEL = "unsloth/gemma-4-E2B-it"
	GRPO_TRAINING_TIMEOUT_SECONDS = 24 * 60 * 60
	GRPO_GPU_FALLBACK = ["L40S", "L4"]
	_IMAGE_NOTICE_PRINTED = False


	def _ensure_gemma4_model(model_name: str) -> str:
	if model_name != DEFAULT_GEMMA_MODEL:
	raise ValueError(
	"CyberSecurity_OWASP GRPO training is pinned to "
	f"{DEFAULT_GEMMA_MODEL}, matching the Unsloth Gemma 4 E2B RL notebook. "
	f"Received {model_name!r}."
	)
	return model_name


	def _model_repo_slug(model_name: str) -> str:
	return (
	model_name.replace("/", "-")
	.replace("_", "-")
	.replace(".", "-")
	.lower()
	)


	def _grpo_output_repo_slug(
	model_name: str,
	*,
	initial_adapter_path: str = "",
	initial_adapter_repo_id: str = "",
	) -> str:
	warmstart_tag = (
	"-sft-warmstart" if initial_adapter_path or initial_adapter_repo_id else ""
	)
	return (
	f"CyberSecurity_OWASP-{_model_repo_slug(model_name)}"
	f"{warmstart_tag}-grpo-lora"
	)


	def _grpo_run_algo_tag(
	*,
	initial_adapter_path: str = "",
	initial_adapter_repo_id: str = "",
	) -> str:
	return "sft-warmstart-grpo" if initial_adapter_path or initial_adapter_repo_id else "grpo"


	def _hf_model_cache_path(model_name: str) -> pathlib.Path:
	return HF_HUB_CACHE_DIR / f"models--{model_name.replace('/', '--')}"


	def _resolve_grpo_batch_config(
	*,
	per_device_train_batch_size: int,
	gradient_accumulation_steps: int,
	num_generations: int,
	world_size: int = 1,
	) -> tuple[int, int]:
	if num_generations < 1:
	raise ValueError("--num-generations must be at least 1.")
	if per_device_train_batch_size < 1:
	raise ValueError("--per-device-train-batch-size must be at least 1.")
	if world_size < 1:
	raise ValueError("world_size must be at least 1.")

	resolved_gradient_accumulation_steps = (
	gradient_accumulation_steps
	if gradient_accumulation_steps > 0
	else max(2, num_generations)
	)
	if resolved_gradient_accumulation_steps < 1:
	raise ValueError("--gradient-accumulation-steps must be at least 1.")

	effective_batch_size = (
	per_device_train_batch_size
	* resolved_gradient_accumulation_steps
	* world_size
	)
	if effective_batch_size % num_generations:
	raise ValueError(
	"Invalid GRPO batch shape: "
	"per_device_train_batch_size * gradient_accumulation_steps * world_size "
	f"must be divisible by num_generations. Got "
	f"{per_device_train_batch_size} * "
	f"{resolved_gradient_accumulation_steps} * {world_size} = "
	f"{effective_batch_size}, which is not divisible by {num_generations}."
	)
	return resolved_gradient_accumulation_steps, effective_batch_size


	def _validate_vllm_config(*, use_vllm: bool, vllm_gpu_memory_utilization: float) -> None:
	if not use_vllm:
	return
	if not 0.0 < vllm_gpu_memory_utilization <= 0.95:
	raise ValueError(
	"--vllm-gpu-memory-utilization must be in the interval (0.0, 0.95] "
	"when --use-vllm is enabled."
	)


	def _extract_first_json_object(text: str) -> dict[str, Any] \| None:
	stripped = text.strip()
	candidates = [stripped]
	if "```" in stripped:
	for part in stripped.split("```"):
	part = part.strip()
	if part.startswith("json"):
	part = part[4:].strip()
	candidates.append(part)

	for candidate in candidates:
	try:
	loaded = json.loads(candidate)
	except Exception:
	continue
	if isinstance(loaded, dict):
	return loaded

	start = stripped.find("{")
	while start >= 0:
	depth = 0
	in_string = False
	escaped = False
	for index in range(start, len(stripped)):
	char = stripped[index]
	if in_string:
	if escaped:
	escaped = False
	elif char == "\\":
	escaped = True
	elif char == '"':
	in_string = False
	continue
	if char == '"':
	in_string = True
	elif char == "{":
	depth += 1
	elif char == "}":
	depth -= 1
	if depth == 0:
	try:
	loaded = json.loads(stripped[start : index + 1])
	except Exception:
	break
	if isinstance(loaded, dict):
	return loaded
	start = stripped.find("{", start + 1)
	return None


	def _configure_modal_cache_env() -> dict[str, str]:
	values = {
	"HF_HOME": str(HF_HOME_DIR),
	"HF_HUB_CACHE": str(HF_HUB_CACHE_DIR),
	"TRANSFORMERS_CACHE": str(HF_HUB_CACHE_DIR),
	"TORCH_HOME": str(TORCH_HOME_DIR),
	"XDG_CACHE_HOME": str(XDG_CACHE_DIR),
	"UNSLOTH_CACHE_DIR": str(UNSLOTH_CACHE_DIR),
	"UNSLOTH_COMPILE_CACHE": str(UNSLOTH_CACHE_DIR / "compile"),
	"TRITON_CACHE_DIR": str(TRITON_CACHE_DIR),
	}
	for key, value in values.items():
	os.environ[key] = value
	for path in {
	CACHE_DIR,
	HF_HOME_DIR,
	HF_HUB_CACHE_DIR,
	TORCH_HOME_DIR,
	XDG_CACHE_DIR,
	UNSLOTH_CACHE_DIR,
	UNSLOTH_CACHE_DIR / "compile",
	TRITON_CACHE_DIR,
	}:
	path.mkdir(parents=True, exist_ok=True)
	return values


	def _configure_scenario_cache_env(*, required: bool = True) -> dict[str, str]:
	values = {
	"CYBERSECURITY_OWASP_SCENARIO_CACHE_DIR": str(SCENARIO_CACHE_DIR),
	"CYBERSECURITY_OWASP_SCENARIO_CACHE_MODE": "require" if required else "fallback",
	}
	for key, value in values.items():
	os.environ[key] = value
	SCENARIO_CACHE_DIR.mkdir(parents=True, exist_ok=True)
	return values


	def _configure_reward_env(
	*,
	reward_config: str = "",
	reward_variant: str = "",
	reward_mode: str = "",
	) -> dict[str, str]:
	values: dict[str, str] = {}
	if reward_config:
	values["CYBERSECURITY_OWASP_REWARD_CONFIG"] = reward_config
	if reward_variant:
	values["CYBERSECURITY_OWASP_REWARD_VARIANT"] = reward_variant
	if reward_mode:
	values["CYBERSECURITY_OWASP_REWARD_MODE"] = reward_mode
	for key, value in values.items():
	os.environ[key] = value
	return values


	def _print_image_startup_notice() -> None:
	global _IMAGE_NOTICE_PRINTED
	if _IMAGE_NOTICE_PRINTED:
	return
	_IMAGE_NOTICE_PRINTED = True
	print(
	"Modal startup phase 1/5: building or validating the GPU training image. "
	"If this takes minutes, it is Modal image packaging/dependency cache work, "
	"not model-weight download."
	)
	print(
	"Later remote phases will print: cache hit/miss, snapshot_download progress, "
	"Unsloth weight loading, GRPO heartbeat, Trackio upload, and volume commits."
	)


	def _load_local_env_file() -> None:
	env_path = PROJECT_ROOT / ".env.local"
	if not env_path.exists():
	return
	for raw_line in env_path.read_text(encoding="utf-8").splitlines():
	line = raw_line.strip()
	if not line or line.startswith("#") or "=" not in line:
	continue
	key, value = line.split("=", 1)
	key = key.strip()
	if key not in {"TRACKIO_PROJECT"}:
	continue
	value = value.strip().strip('"').strip("'")
	os.environ.setdefault(key, value)


	def _modal_secrets() -> list[modal.Secret]:
	if _is_config_mode():
	return []
	return [modal.Secret.from_name(SECRET_NAME, required_keys=["HF_TOKEN"])]


	def _is_config_mode() -> bool:
	args = sys.argv[1:]
	for index, arg in enumerate(args):
	if arg == "--mode" and index + 1 < len(args):
	return args[index + 1] == "config"
	if arg.startswith("--mode="):
	return arg.split("=", 1)[1] == "config"
	return False


	def _is_prepare_cache_mode() -> bool:
	args = sys.argv[1:]
	for index, arg in enumerate(args):
	if arg == "--mode" and index + 1 < len(args):
	return args[index + 1] == "prepare-cache"
	if arg.startswith("--mode="):
	return arg.split("=", 1)[1] == "prepare-cache"
	return False


	_load_local_env_file()


	def _cli_arg_value(name: str, default: str = "") -> str:
	args = sys.argv[1:]
	flag = f"--{name}"
	for index, arg in enumerate(args):
	if arg == flag and index + 1 < len(args):
	return args[index + 1]
	if arg.startswith(f"{flag}="):
	return arg.split("=", 1)[1]
	return default


	def _source_mode() -> str:
	return _cli_arg_value("source-mode", os.environ.get("MODAL_SOURCE_MODE", "local"))


	def _training_image() -> modal.Image:
	if _is_prepare_cache_mode():
	return _scenario_cache_image()
	if not _is_prepare_cache_mode():
	_print_image_startup_notice()
	image = (
	modal.Image.from_registry(
	"nvidia/cuda:12.8.0-devel-ubuntu22.04",
	add_python="3.11",
	)
	.apt_install("git", "build-essential", "curl")
	.uv_pip_install(
	"torch==2.10.0",
	"triton>=3.4.0",
	"torchvision==0.25.0",
	"bitsandbytes",
	"accelerate",
	"datasets",
	"huggingface_hub",
	"peft",
	"pillow",
	"tokenizers",
	"nvidia-ml-py",
	"trackio>=0.25.0",
	"transformers>=5.5.0",
	"trl>=0.28.0",
	"openenv-core[core]>=0.2.3",
	)
	.uv_pip_install(
	"unsloth_zoo[base] @ git+https://github.com/unslothai/unsloth-zoo",
	"unsloth[base] @ git+https://github.com/unslothai/unsloth",
	)
	.uv_pip_install("timm", extra_options="--no-deps")
	.uv_pip_install("pydantic==2.10.6")
	.uv_pip_install("mergekit", "immutables==0.21", extra_options="--no-deps")
	.uv_pip_install("llm-blender", "weave")
	.uv_pip_install("trl>=0.28.0", "transformers>=5.5.0", "jmespath")
	)

	if _source_mode() == "public":
	repo_url = _cli_arg_value("repo-url", PUBLIC_REPO_URL)
	repo_branch = _cli_arg_value("repo-branch", PUBLIC_REPO_BRANCH)
	image = image.run_commands(
	f"git clone --depth 1 --branch {repo_branch} {repo_url} {REMOTE_PROJECT}",
	f"python -m pip install --no-deps -e {REMOTE_PROJECT}",
	)
	else:
	image = image.add_local_dir(
	PROJECT_ROOT,
	remote_path=REMOTE_PROJECT,
	copy=True,
	ignore=[
	".git",
	".venv",
	".env",
	".env.*",
	"__pycache__",
	".pytest_cache",
	"outputs",
	"*.pyc",
	],
	)
	image = image.run_commands(
	f"python -m pip install --no-deps -e {REMOTE_PROJECT}",
	)

	return image.run_commands(
	"python -c \"import os, torch; import transformers.utils.hub as hub; "
	"hub.TRANSFORMERS_CACHE = getattr(hub, 'TRANSFORMERS_CACHE', "
	"os.path.join(os.path.expanduser('~'), '.cache', 'huggingface', 'hub')); "
	"from trl import GRPOConfig, GRPOTrainer; "
	"from CyberSecurity_OWASP.server.CyberSecurity_OWASP_environment import "
	"CybersecurityOwaspEnvironment; print('trainer import ok', torch.__version__)\"",
	).workdir(REMOTE_PROJECT)


	def _scenario_cache_image() -> modal.Image:
	image = (
	modal.Image.debian_slim(python_version="3.11")
	.apt_install("git")
	.uv_pip_install("openenv-core[core]>=0.2.3", "trackio>=0.25.0")
	)

	if _source_mode() == "public":
	repo_url = _cli_arg_value("repo-url", PUBLIC_REPO_URL)
	repo_branch = _cli_arg_value("repo-branch", PUBLIC_REPO_BRANCH)
	image = image.run_commands(
	f"git clone --depth 1 --branch {repo_branch} {repo_url} {REMOTE_PROJECT}",
	f"python -m pip install --no-deps -e {REMOTE_PROJECT}",
	)
	else:
	image = image.add_local_dir(
	PROJECT_ROOT,
	remote_path=REMOTE_PROJECT,
	copy=True,
	ignore=[
	".git",
	".venv",
	".env",
	".env.*",
	"__pycache__",
	".pytest_cache",
	"outputs",
	"*.pyc",
	],
	)
	image = image.run_commands(
	f"python -m pip install --no-deps -e {REMOTE_PROJECT}",
	)
	return image.workdir(REMOTE_PROJECT)


	app = modal.App(APP_NAME)
	volume = modal.Volume.from_name(VOLUME_NAME, create_if_missing=True)
	cache_volume = modal.Volume.from_name(CACHE_VOLUME_NAME, create_if_missing=True)
	scenario_cache_volume = modal.Volume.from_name(SCENARIO_CACHE_VOLUME_NAME, create_if_missing=True)
	secrets = _modal_secrets()
	scenario_cache_image = _scenario_cache_image()
	training_image = _training_image()


	@app.function(
	image=scenario_cache_image,
	timeout=2 * 60 * 60,
	volumes={SCENARIO_CACHE_DIR: scenario_cache_volume},
	)
	def prepare_modal_scenario_cache(
	seed_start: int = 0,
	difficulty_buckets: int = 0,
	train_per_bucket: int = 0,
	validation_per_bucket: int = 0,
	heldout_per_bucket: int = 0,
	force: bool = False,
	) -> dict[str, Any]:
	if difficulty_buckets:
	os.environ["CYBERSECURITY_OWASP_DIFFICULTY_BUCKETS"] = str(difficulty_buckets)
	if train_per_bucket:
	os.environ["CYBERSECURITY_OWASP_TRAIN_SCENARIOS_PER_BUCKET"] = str(train_per_bucket)
	if validation_per_bucket:
	os.environ["CYBERSECURITY_OWASP_VALIDATION_SCENARIOS_PER_BUCKET"] = str(validation_per_bucket)
	if heldout_per_bucket:
	os.environ["CYBERSECURITY_OWASP_HELDOUT_SCENARIOS_PER_BUCKET"] = str(heldout_per_bucket)
	_configure_scenario_cache_env(required=False)
	from CyberSecurity_OWASP.config import load_scenario_authoring_config
	from CyberSecurity_OWASP.server.scenario_cache import prepare_scenario_cache

	settings = load_scenario_authoring_config()
	result = prepare_scenario_cache(
	cache_dir=SCENARIO_CACHE_DIR,
	settings=settings,
	seed_start=seed_start,
	force=force,
	)
	scenario_cache_volume.commit()
	result["scenario_cache_volume"] = SCENARIO_CACHE_VOLUME_NAME
	return result


	@app.function(
	image=scenario_cache_image,
	timeout=60 * 10,
	volumes={SCENARIO_CACHE_DIR: scenario_cache_volume},
	)
	def verify_modal_scenario_cache_for_training(
	split: str = "train",
	difficulty: int = 0,
	dataset_size: int = 2,
	seed_start: int = 0,
	) -> dict[str, Any]:
	_configure_scenario_cache_env(required=True)
	scenario_cache_volume.reload()

	from CyberSecurity_OWASP.config import load_scenario_authoring_config
	from CyberSecurity_OWASP.server.CyberSecurity_OWASP_environment import (
	CybersecurityOwaspEnvironment,
	)
	from CyberSecurity_OWASP.server.curriculum import CurriculumController
	from CyberSecurity_OWASP.server.scenario_cache import ScenarioCache

	settings = load_scenario_authoring_config()
	scenario_profile = CurriculumController(settings=settings).select_profile(
	seed=seed_start,
	split=split,
	requested_difficulty=difficulty,
	)
	resolved_difficulty = int(scenario_profile["difficulty"])
	cache = ScenarioCache(SCENARIO_CACHE_DIR, settings=settings)
	coverage = cache.assert_coverage(split=split, difficulty=resolved_difficulty)
	entries = cache.validated_entries(split=split, difficulty=resolved_difficulty)
	if not entries:
	entries = cache.validated_entries(split=split)
	if not entries:
	raise RuntimeError(f"No validated scenario cache entries found for split={split!r}.")
	sample_entry = entries[0]

	env = CybersecurityOwaspEnvironment()
	try:
	obs = env.reset(
	seed=int(sample_entry["seed"]),
	split=str(sample_entry["split"]),
	difficulty=int(sample_entry["difficulty"]),
	)
	if not env.state.cache_hit:
	raise RuntimeError("Scenario cache preflight reset did not hit cache.")
	if env.state.metrics.get("scenario_compile_latency_ms", 0.0):
	raise RuntimeError("Scenario cache preflight unexpectedly compiled a scenario.")
	sample = {
	"phase": obs.phase,
	"task_id": env.state.task_id,
	"cache_hit": env.state.cache_hit,
	"scenario_hash": env.state.scenario_hash,
	"reset_latency_ms": env.state.reset_latency_ms,
	"bundle_load_latency_ms": env.state.metrics.get(
	"scenario_bundle_load_latency_ms",
	0.0,
	),
	}
	finally:
	env.close()

	return {
	"scenario_cache_volume": SCENARIO_CACHE_VOLUME_NAME,
	"scenario_cache_dir": str(SCENARIO_CACHE_DIR),
	"scenario_cache_mode": "require",
	"split": split,
	"difficulty": "adaptive",
	"initial_difficulty": resolved_difficulty,
	"dataset_size": dataset_size,
	"available_scenarios": len(cache.validated_entries(split=split)),
	"coverage": coverage,
	"sample_reset": sample,
	}


	@app.function(
	image=training_image,
	gpu=GRPO_GPU_FALLBACK,
	timeout=4 * 60 * 60,
	volumes={RUNS_DIR: volume, CACHE_DIR: cache_volume, SCENARIO_CACHE_DIR: scenario_cache_volume},
	secrets=secrets,
	)
	def check_training_imports() -> dict[str, str]:
	cache_env = _configure_modal_cache_env()
	scenario_cache_env = _configure_scenario_cache_env(required=False)

	import torch
	import trackio
	from datasets import Dataset
	from trl import GRPOConfig, GRPOTrainer
	from unsloth import FastVisionModel

	from CyberSecurity_OWASP.server.CyberSecurity_OWASP_environment import (
	CybersecurityOwaspEnvironment,
	)

	env = CybersecurityOwaspEnvironment()
	obs = env.reset(seed=0, split="validation", difficulty=0)
	return {
	"torch": torch.__version__,
	"trackio": getattr(trackio, "__version__", "unknown"),
	"dataset": Dataset.__name__,
	"grpo_config": GRPOConfig.__name__,
	"grpo_trainer": GRPOTrainer.__name__,
	"unsloth_vision_model": FastVisionModel.__name__,
	"env": CybersecurityOwaspEnvironment.__name__,
	"reset_phase": obs.phase,
	"hf_home": cache_env["HF_HOME"],
	"hf_hub_cache": cache_env["HF_HUB_CACHE"],
	"scenario_cache_dir": scenario_cache_env["CYBERSECURITY_OWASP_SCENARIO_CACHE_DIR"],
	}


	@app.function(
	image=training_image,
	gpu=GRPO_GPU_FALLBACK,
	timeout=4 * 60 * 60,
	volumes={RUNS_DIR: volume, CACHE_DIR: cache_volume, SCENARIO_CACHE_DIR: scenario_cache_volume},
	secrets=secrets,
	)
	def run_cybersecurity_owasp_baseline(
	max_steps: int = 50,
	dataset_size: int = 1,
	difficulty: int = 0,
	split: str = "train",
	model_name: str = DEFAULT_GEMMA_MODEL,
	max_seq_length: int = 4096,
	max_completion_length: int = 768,
	trackio_space_id: str = "Humanlearning/CyberSecurity_OWASP-trackio",
	trackio_project: str = "CyberSecurity_OWASP-grpo",
	num_generations: int = 1,
	trace_log_every: int = 1,
	seed_start: int = 0,
	git_sha: str = "nogit",
	run_name: str = "baseline",
	source_mode: str = "local",
	repo_url: str = PUBLIC_REPO_URL,
	repo_branch: str = PUBLIC_REPO_BRANCH,
	reward_config: str = "",
	reward_variant: str = "",
	) -> dict[str, str \| int \| float]:
	import statistics
	import time

	import torch
	from huggingface_hub import snapshot_download, whoami
	from unsloth import FastVisionModel
	import transformers.utils.hub as transformers_hub

	from CyberSecurity_OWASP.models import CyberSecurityOWASPAction
	from CyberSecurity_OWASP.config import load_scenario_authoring_config
	from CyberSecurity_OWASP.reward_config import load_reward_settings
	from CyberSecurity_OWASP.server.CyberSecurity_OWASP_environment import (
	CybersecurityOwaspEnvironment,
	)
	from CyberSecurity_OWASP.server.curriculum import CurriculumController
	from CyberSecurity_OWASP.server.scenario_cache import ScenarioCache
	from training.trackio_utils import (
	aggregate_episode_metrics,
	episode_record_from_state,
	log_reward_config,
	log_trace_table,
	log_trackio_metrics,
	reward_config_trackio_config,
	trackio_run,
	)

	model_name = _ensure_gemma4_model(model_name)
	if int(num_generations) != 1:
	raise ValueError("Baseline mode runs the untrained model with --num-generations 1.")

	cache_env = _configure_modal_cache_env()
	scenario_cache_env = _configure_scenario_cache_env(required=True)
	transformers_hub.TRANSFORMERS_CACHE = cache_env["HF_HUB_CACHE"]
	hf_token = os.environ.get("HF_TOKEN")
	if not hf_token:
	raise RuntimeError(f"HF_TOKEN is missing from the Modal secret {SECRET_NAME}.")
	try:
	whoami(token=hf_token)
	except Exception as exc:
	raise RuntimeError("HF_TOKEN could not be validated before baseline run.") from exc

	os.environ["TRACKIO_SPACE_ID"] = trackio_space_id
	os.environ["TRACKIO_PROJECT"] = trackio_project
	reward_env = _configure_reward_env(
	reward_config=reward_config,
	reward_variant=reward_variant,
	)
	reward_settings = load_reward_settings()
	reward_tracking_config = reward_config_trackio_config(reward_settings)
	reward_tracking_config["reward_variant"] = reward_variant or "default"
	reward_tracking_config["reward_config_path"] = reward_config or reward_settings.source_path
	run_name = run_name or "baseline"
	output_dir = RUNS_DIR / run_name
	output_dir.mkdir(parents=True, exist_ok=True)

	try:
	cache_volume.reload()
	print(f"Reloaded Modal model cache volume: {CACHE_VOLUME_NAME}")
	except Exception as exc:
	print(f"Model cache volume reload skipped: {exc!r}")
	try:
	scenario_cache_volume.reload()
	print(f"Reloaded Modal scenario cache volume: {SCENARIO_CACHE_VOLUME_NAME}")
	except Exception as exc:
	print(f"Scenario cache volume reload skipped: {exc!r}")

	settings = load_scenario_authoring_config()
	scenario_profile = CurriculumController(settings=settings).select_profile(
	seed=seed_start,
	split=split,
	requested_difficulty=difficulty,
	)
	resolved_difficulty = int(scenario_profile["difficulty"])
	scenario_cache = ScenarioCache(SCENARIO_CACHE_DIR, settings=settings)
	coverage = scenario_cache.assert_coverage(
	split=split,
	difficulty=resolved_difficulty,
	)
	entries = scenario_cache.validated_entries(
	split=split,
	difficulty=resolved_difficulty,
	) or scenario_cache.validated_entries(split=split)
	if not entries:
	raise RuntimeError(f"No validated scenario cache entries found for split={split!r}.")

	print(f"Baseline run name: {run_name}")
	print(f"Source mode: {source_mode}")
	if source_mode == "public":
	print(f"Installed CyberSecurity_OWASP from public repo: {repo_url}@{repo_branch}")
	else:
	print("Packaged local CyberSecurity_OWASP repo.")
	print(f"Trackio Space: {trackio_space_id}")
	print(f"Trackio Project: {trackio_project}")
	print(f"Reward config: {reward_tracking_config['reward_config_id']}")
	print(f"Reward config hash: {reward_tracking_config['reward_config_hash']}")
	print(f"Reward variant: {reward_tracking_config['reward_variant']}")
	print(f"Reward config path: {reward_tracking_config['reward_config_path']}")
	if reward_env:
	print(f"Reward env overrides: {reward_env}")
	print(f"Scenario cache dir: {scenario_cache_env['CYBERSECURITY_OWASP_SCENARIO_CACHE_DIR']}")
	print(f"Scenario cache coverage: {coverage}")
	print(
	"Baseline generation config: "
	f"episodes={dataset_size}, max_episode_steps={max_steps}, "
	f"num_generations={num_generations}, max_completion_length={max_completion_length}, "
	f"trace_log_every={trace_log_every}"
	)

	expected_model_cache = _hf_model_cache_path(model_name)
	print(f"Expected HF model cache path: {expected_model_cache}")
	print(f"Model cache hit before load: {expected_model_cache.exists()}")
	try:
	snapshot_path = snapshot_download(
	repo_id=model_name,
	cache_dir=str(HF_HUB_CACHE_DIR),
	token=hf_token,
	)
	print(f"Model snapshot ready: {snapshot_path}")
	cache_volume.commit()
	except Exception as exc:
	print(f"Explicit model snapshot prefetch failed; loading directly. Error: {exc!r}")

	model_api = FastVisionModel
	model, tokenizer = model_api.from_pretrained(
	model_name=model_name,
	max_seq_length=max_seq_length,
	load_in_4bit=False,
	fast_inference=False,
	cache_dir=str(HF_HUB_CACHE_DIR),
	token=hf_token,
	)
	if hasattr(model_api, "for_inference"):
	model_api.for_inference(model)
	model.eval()
	cache_volume.commit()
	device = next(model.parameters()).device
	text_tokenizer = getattr(tokenizer, "tokenizer", tokenizer)

	def render_prompt(observation, actions: list[dict[str, Any]]) -> str:
	recent_actions = actions[-8:]
	return (
	"You are the untrained baseline model for a defensive local AppSec "
	"repair environment. Use only the listed local tools. Return exactly "
	"one JSON object and no markdown.\n\n"
	f"{observation.scenario_prompt}\n\n"
	f"Current phase: {observation.phase}\n"
	f"Available actions: {observation.available_actions}\n"
	f"Last tool result: {observation.last_tool_result}\n"
	f"Recent actions: {json.dumps(recent_actions, sort_keys=True)}\n\n"
	'Required format: {"tool_name":"inspect_policy_graph","arguments":{}}'
	)

	def generate_action_text(prompt: str) -> tuple[str, list[int], list[int]]:
	messages = [{"role": "user", "content": prompt}]
	prompt_text = prompt
	for candidate in (tokenizer, text_tokenizer):
	if hasattr(candidate, "apply_chat_template"):
	try:
	prompt_text = candidate.apply_chat_template(
	messages,
	tokenize=False,
	add_generation_prompt=True,
	)
	break
	except Exception:
	prompt_text = prompt
	encode = tokenizer
	try:
	inputs = encode(
	prompt_text,
	return_tensors="pt",
	truncation=True,
	max_length=max_seq_length,
	)
	except Exception:
	inputs = text_tokenizer(
	prompt_text,
	return_tensors="pt",
	truncation=True,
	max_length=max_seq_length,
	)
	if hasattr(inputs, "to"):
	inputs = inputs.to(device)
	else:
	inputs = {
	key: value.to(device) if hasattr(value, "to") else value
	for key, value in inputs.items()
	}
	input_ids = inputs.get("input_ids")
	input_len = int(input_ids.shape[-1]) if input_ids is not None else 0
	pad_token_id = getattr(text_tokenizer, "pad_token_id", None)
	if pad_token_id is None:
	pad_token_id = getattr(text_tokenizer, "eos_token_id", None)
	with torch.inference_mode():
	generated = model.generate(
	**inputs,
	max_new_tokens=max_completion_length,
	do_sample=False,
	pad_token_id=pad_token_id,
	)
	output_ids = generated[0]
	completion_ids = output_ids[input_len:]
	decode = getattr(text_tokenizer, "decode", None) or getattr(tokenizer, "decode")
	text = decode(completion_ids, skip_special_tokens=True)
	prompt_ids = (
	[int(item) for item in input_ids[0].detach().cpu().tolist()]
	if input_ids is not None
	else []
	)
	return text, prompt_ids, [int(item) for item in completion_ids.detach().cpu().tolist()]

	def action_from_completion(raw_text: str) -> tuple[CyberSecurityOWASPAction, str \| None]:
	loaded = _extract_first_json_object(raw_text)
	if loaded is None:
	return CyberSecurityOWASPAction(tool_name="noop", arguments={}), "invalid_json"
	arguments = loaded.get("arguments", {})
	if not isinstance(arguments, dict):
	arguments = {}
	payload = {
	"tool_name": loaded.get("tool_name", "noop"),
	"arguments": arguments,
	}
	try:
	return CyberSecurityOWASPAction(**payload), None
	except Exception as exc:
	return (
	CyberSecurityOWASPAction(tool_name="noop", arguments={}),
	f"invalid_action_schema: {exc}",
	)

	episode_records: list[dict[str, Any]] = []
	raw_traces: list[dict[str, Any]] = []
	invalid_model_outputs = 0
	generation_started = time.monotonic()
	config = {
	"base_model": model_name,
	"algo": "baseline",
	"difficulty": difficulty,
	"split": split,
	"max_episode_steps": max_steps,
	"dataset_size": dataset_size,
	"num_generations": num_generations,
	"max_completion_length": max_completion_length,
	"git_sha": git_sha,
	"reward_variant": reward_tracking_config["reward_variant"],
	**reward_tracking_config,
	}

	with trackio_run(
	run_name=run_name,
	run_type="baseline",
	config=config,
	project=trackio_project,
	space_id=trackio_space_id,
	group="baseline",
	auto_log_gpu=True,
	):
	log_reward_config(reward_settings, step=0)
	for episode_index in range(max(1, int(dataset_size))):
	entry = entries[(seed_start + episode_index) % len(entries)]
	env = CybersecurityOwaspEnvironment()
	try:
	observation = env.reset(
	seed=int(entry["seed"]),
	split=str(entry["split"]),
	difficulty=int(entry["difficulty"]),
	)
	env.state.max_steps = int(max_steps)
	actions: list[dict[str, Any]] = []
	model_steps: list[dict[str, Any]] = []
	prompt_token_count = 0
	completion_token_count = 0

	for step_index in range(int(max_steps)):
	if observation.done:
	break
	prompt = render_prompt(observation, actions)
	raw_text, prompt_ids, completion_ids = generate_action_text(prompt)
	prompt_token_count += len(prompt_ids)
	completion_token_count += len(completion_ids)
	action, invalid_reason = action_from_completion(raw_text)
	if invalid_reason:
	invalid_model_outputs += 1
	observation = env.step(action)
	action_dump = action.model_dump()
	actions.append(action_dump)
	model_steps.append(
	{
	"step": step_index + 1,
	"raw_completion": raw_text,
	"action": action_dump,
	"invalid_model_output": invalid_reason,
	"observation_message": observation.message,
	"reward": observation.reward,
	"done": observation.done,
	}
	)

	env.state.completion_tokens = completion_token_count
	env.state.metrics["prompt_tokens"] = prompt_token_count
	env.state.metrics["completion_tokens"] = completion_token_count
	final_observation = observation.model_dump()
	record = episode_record_from_state(
	env.state,
	run_context={
	"base_model": model_name,
	"algo": "baseline",
	"reward_version": "reward_v2",
	"env_version": "0.1.0",
	**reward_tracking_config,
	},
	final_observation=final_observation,
	)
	record.update(
	{
	"reward_total": float(env.state.accumulated_reward),
	"success": bool(env.state.success),
	"episode_length": int(env.state.step_count),
	"invalid_model_output_count": sum(
	1 for item in model_steps if item["invalid_model_output"]
	),
	"prompt_tokens": prompt_token_count,
	"completion_tokens": completion_token_count,
	}
	)
	episode_records.append(record)
	raw_traces.append(
	{
	"episode_index": episode_index,
	"task_id": env.state.task_id,
	"seed": env.state.seed,
	"split": env.state.split,
	"difficulty": env.state.difficulty,
	"domain": env.state.domain,
	"bug_family": env.state.bug_family,
	"steps": model_steps,
	}
	)
	finally:
	env.close()

	metrics = aggregate_episode_metrics(episode_records)
	metrics.update(
	{
	"baseline/episode_count": float(len(episode_records)),
	"baseline/reward_total_mean": statistics.mean(
	float(item.get("reward_total", 0.0)) for item in episode_records
	),
	"baseline/success_rate": statistics.mean(
	1.0 if item.get("success") else 0.0 for item in episode_records
	),
	"baseline/invalid_model_output_rate": invalid_model_outputs
	/ max(1.0, sum(float(item.get("episode_length", 0)) for item in episode_records)),
	"baseline/num_generations": float(num_generations),
	"baseline/max_episode_steps": float(max_steps),
	"baseline/max_completion_length": float(max_completion_length),
	}
	)
	log_trackio_metrics(metrics, step=episode_index + 1)
	if trace_log_every > 0 and (
	episode_index == 0 or (episode_index + 1) % trace_log_every == 0
	):
	log_trace_table(
	[episode_records[-1]],
	table_name="baseline_traces",
	step=episode_index + 1,
	)

	elapsed_s = time.monotonic() - generation_started
	summary = {
	"run_name": run_name,
	"trackio_space_id": trackio_space_id,
	"trackio_project": trackio_project,
	"model_name": model_name,
	"dataset_size": len(episode_records),
	"max_episode_steps": int(max_steps),
	"difficulty": int(difficulty),
	"split": split,
	"num_generations": int(num_generations),
	"max_completion_length": int(max_completion_length),
	"mean_reward": (
	statistics.mean(float(item.get("reward_total", 0.0)) for item in episode_records)
	if episode_records
	else 0.0
	),
	"success_rate": (
	statistics.mean(1.0 if item.get("success") else 0.0 for item in episode_records)
	if episode_records
	else 0.0
	),
	"invalid_model_output_count": int(invalid_model_outputs),
	"elapsed_s": elapsed_s,
	**reward_tracking_config,
	}
	artifact_path = output_dir / "baseline_rollouts.json"
	artifact_path.write_text(
	json.dumps(
	{
	"summary": summary,
	"episodes": episode_records,
	"raw_traces": raw_traces,
	},
	indent=2,
	sort_keys=True,
	default=str,
	),
	encoding="utf-8",
	)
	volume.commit()
	cache_volume.commit()
	scenario_cache_volume.commit()
	print(f"Baseline artifact saved to {artifact_path}")
	return {**summary, "artifact_path": str(artifact_path)}


	@app.function(
	image=training_image,
	gpu=GRPO_GPU_FALLBACK,
	timeout=GRPO_TRAINING_TIMEOUT_SECONDS,
	volumes={RUNS_DIR: volume, CACHE_DIR: cache_volume, SCENARIO_CACHE_DIR: scenario_cache_volume},
	secrets=secrets,
	)
	def train_cybersecurity_owasp_grpo(
	env_repo_id: str = "",
	output_repo_id: str = "",
	initial_adapter_path: str = "",
	initial_adapter_repo_id: str = "",
	max_steps: int = 10,
	dataset_size: int = 16,
	difficulty: int = 0,
	split: str = "train",
	model_name: str = DEFAULT_GEMMA_MODEL,
	max_seq_length: int = 4096,
	max_completion_length: int = 768,
	lora_rank: int = 32,
	trackio_space_id: str = "Humanlearning/CyberSecurity_OWASP-trackio",
	trackio_project: str = "CyberSecurity_OWASP-grpo",
	num_generations: int = 6,
	per_device_train_batch_size: int = 1,
	gradient_accumulation_steps: int = 0,
	learning_rate: float = 5e-6,
	use_vllm: bool = False,
	vllm_gpu_memory_utilization: float = 0.2,
	trace_log_every: int = 5,
	seed_start: int = 0,
	git_sha: str = "nogit",
	run_name: str = "",
	source_mode: str = "local",
	repo_url: str = PUBLIC_REPO_URL,
	repo_branch: str = PUBLIC_REPO_BRANCH,
	push_to_hub: bool = False,
	reward_config: str = "",
	reward_variant: str = "",
	) -> dict[str, str \| int \| float]:
	import inspect
	import statistics
	import threading
	import time

	model_name = _ensure_gemma4_model(model_name)
	cache_env = _configure_modal_cache_env()
	world_size = int(os.environ.get("WORLD_SIZE", "1") or "1")
	(
	resolved_gradient_accumulation_steps,
	effective_train_batch_size,
	) = _resolve_grpo_batch_config(
	per_device_train_batch_size=per_device_train_batch_size,
	gradient_accumulation_steps=gradient_accumulation_steps,
	num_generations=num_generations,
	world_size=world_size,
	)
	_validate_vllm_config(
	use_vllm=use_vllm,
	vllm_gpu_memory_utilization=vllm_gpu_memory_utilization,
	)
	trace_log_every = max(0, int(trace_log_every))

	import torch
	from safetensors.torch import load_file as load_safetensors_file
	from unsloth import FastVisionModel
	import transformers.utils.hub as transformers_hub
	from datasets import Dataset
	from huggingface_hub import snapshot_download, whoami
	from peft import set_peft_model_state_dict
	from transformers import TrainerCallback
	from trl import GRPOConfig, GRPOTrainer, clone_chat_template
	try:
	from trl.chat_template_utils import add_response_schema
	except ImportError:
	def add_response_schema(tokenizer):
	return tokenizer

	import trackio

	from CyberSecurity_OWASP.models import CyberSecurityOWASPAction
	from CyberSecurity_OWASP.config import load_scenario_authoring_config
	from CyberSecurity_OWASP.server.CyberSecurity_OWASP_environment import (
	CybersecurityOwaspEnvironment,
	)
	from CyberSecurity_OWASP.reward_config import (
	compute_token_penalty,
	load_reward_settings,
	)
	from CyberSecurity_OWASP.server.curriculum import CurriculumController
	from CyberSecurity_OWASP.server.scenario_cache import ScenarioCache
	from training.trackio_utils import (
	aggregate_episode_metrics,
	episode_record_from_state,
	episode_trace_fingerprint,
	log_reward_config,
	log_gpu_metrics,
	log_trace_table,
	log_trackio_metrics,
	reward_config_trackio_config,
	train_metric_aliases,
	)
	from training.grpo_curriculum import (
	ScenarioGroupRegistry,
	build_scenario_group_rows,
	)

	transformers_hub.TRANSFORMERS_CACHE = cache_env["HF_HUB_CACHE"]

	hf_token = os.environ.get("HF_TOKEN")
	if not hf_token:
	raise RuntimeError(
	f"HF_TOKEN is missing from the Modal secret {SECRET_NAME}."
	)

	user = whoami(token=hf_token)["name"]
	env_repo_id = env_repo_id or f"{user}/CyberSecurity_OWASP"
	output_repo_id = output_repo_id or (
	f"{user}/{_grpo_output_repo_slug(model_name, initial_adapter_path=initial_adapter_path, initial_adapter_repo_id=initial_adapter_repo_id)}"
	)
	if not trackio_space_id:
	trackio_space_id = "Humanlearning/CyberSecurity_OWASP-trackio"
	if hf_token:
	try:
	from huggingface_hub import whoami

	user = whoami(token=hf_token)["name"]
	if user == "humandotlearning":
	trackio_space_id = f"{user}/CyberSecurity_OWASP-trackio"
	except Exception:
	pass

	os.environ["TRACKIO_SPACE_ID"] = trackio_space_id
	os.environ["TRACKIO_PROJECT"] = trackio_project
	reward_env = _configure_reward_env(
	reward_config=reward_config,
	reward_variant=reward_variant,
	reward_mode="dense_train",
	)
	reward_settings = load_reward_settings()
	reward_tracking_config = reward_config_trackio_config(reward_settings)
	reward_tracking_config["reward_variant"] = reward_variant or "default"
	reward_tracking_config["reward_config_path"] = reward_config or reward_settings.source_path

	model_slug = model_name.replace("/", "-")
	stamp = datetime.now(timezone.utc).strftime("%Y%m%d-%H%M%S")
	algo_tag = _grpo_run_algo_tag(
	initial_adapter_path=initial_adapter_path,
	initial_adapter_repo_id=initial_adapter_repo_id,
	)
	run_name = run_name or (
	f"CyberSecurity_OWASP-{model_slug}-{algo_tag}-level{difficulty}-"
	f"{reward_tracking_config['reward_variant']}-steps{max_steps}-seed{seed_start}-"
	f"{stamp}-{git_sha[:8]}"
	)
	output_dir = RUNS_DIR / run_name
	output_dir.mkdir(parents=True, exist_ok=True)

	try:
	cache_volume.reload()
	print(f"Reloaded Modal model cache volume: {CACHE_VOLUME_NAME}")
	except Exception as exc:
	print(f"Model cache volume reload skipped: {exc!r}")
	try:
	scenario_cache_volume.reload()
	print(f"Reloaded Modal scenario cache volume: {SCENARIO_CACHE_VOLUME_NAME}")
	except Exception as exc:
	print(f"Scenario cache volume reload skipped: {exc!r}")
	cache_env = _configure_modal_cache_env()
	scenario_cache_env = _configure_scenario_cache_env(required=True)
	scenario_settings = load_scenario_authoring_config()
	scenario_profile = CurriculumController(settings=scenario_settings).select_profile(
	seed=seed_start,
	split=split,
	requested_difficulty=difficulty,
	)
	scenario_cache = ScenarioCache(SCENARIO_CACHE_DIR, settings=scenario_settings)
	scenario_cache_coverage = scenario_cache.assert_coverage(
	split=split,
	difficulty=int(scenario_profile["difficulty"]),
	)
	scenario_entries = scenario_cache.validated_entries(split=split)
	scenario_registry = ScenarioGroupRegistry(
	scenario_entries,
	split=split,
	initial_difficulty=int(scenario_profile["difficulty"]),
	rng_seed=seed_start,
	max_level=scenario_settings.curriculum.difficulty_bucket_count - 1,
	)

	training_prompt = (
	"You are a defensive AppSec repair agent in the local CyberSecurity_OWASP "
	"OpenEnv environment. Use only the provided local tools. Do not target real "
	"systems. Work step by step: inspect policy and generated code, reproduce the "
	"authorization issue locally, submit a policy-tied diagnosis, patch the generated "
	"app, run visible tests, then submit the fix. Do not write explanations unless "
	"a tool argument needs evidence text."
	)

	dataset = Dataset.from_list(
	build_scenario_group_rows(
	dataset_size=dataset_size,
	training_prompt=training_prompt,
	seed_start=seed_start,
	split=split,
	difficulty=difficulty,
	difficulty_policy="adaptive",
	)
	)

	def _state_snapshot(env: CybersecurityOwaspEnvironment) -> dict[str, Any]:
	state = env.state
	return {
	"episode_id": state.episode_id,
	"task_id": state.task_id,
	"seed": state.seed,
	"split": state.split,
	"difficulty": state.difficulty,
	"difficulty_tier": state.difficulty_tier,
	"domain": state.domain,
	"bug_family": state.bug_family,
	"template_id": state.template_id,
	"cache_hit": state.cache_hit,
	"scenario_hash": state.scenario_hash,
	"phase": state.phase,
	"step_count": state.step_count,
	"done": state.done,
	"success": state.success,
	"failure_reason": state.failure_reason,
	"anti_cheat_flags": list(state.anti_cheat_flags),
	}

	class CyberSecurityOWASPToolEnv:
	def __init__(self):
	self._env = CybersecurityOwaspEnvironment()
	self.reward = 0.0
	self.reward_breakdown: dict[str, float] = {}
	self.done = False
	self.success = False
	self.invalid_actions = 0
	self.scenario_group_id = -1
	self.scenario_assignment: dict[str, Any] = {}
	self.trace_messages: list[dict[str, str]] = []
	self.trace_metadata: dict[str, Any] = {}

	def reset(self, **kwargs) -> str:
	group_id = int(kwargs.get("scenario_group_id", kwargs.get("seed", seed_start)))
	assignment = scenario_registry.assignment_for(
	scenario_group_id=group_id,
	requested_seed=int(kwargs.get("seed", seed_start)),
	requested_difficulty=int(kwargs.get("difficulty", difficulty)),
	split=str(kwargs.get("split", split)),
	difficulty_policy=str(kwargs.get("difficulty_policy", "adaptive")),
	)
	seed = int(assignment["seed"])
	current_difficulty = int(assignment["difficulty"])
	current_split = str(assignment["split"])
	obs = self._env.reset(
	seed=seed,
	split=current_split,
	difficulty=current_difficulty,
	)
	self.scenario_group_id = group_id
	self.scenario_assignment = assignment
	self.reward = 0.0
	self.reward_breakdown = {}
	self.done = bool(obs.done)
	self.success = False
	self.invalid_actions = 0
	self.trace_messages = [
	{
	"role": "user",
	"content": (
	f"{training_prompt}\n\n"
	f"{obs.scenario_prompt}\n\n"
	f"Initial message: {obs.message}"
	),
	}
	]
	self.trace_metadata = _state_snapshot(self._env)
	self.trace_metadata.update(
	{
	"scenario_group_id": self.scenario_group_id,
	"scenario_assignment": dict(self.scenario_assignment),
	"scenario_prompt_length": len(obs.scenario_prompt),
	"reward_config_id": reward_tracking_config["reward_config_id"],
	"reward_config_hash": reward_tracking_config["reward_config_hash"],
	"reward_stage": reward_tracking_config["reward_stage"],
	"reward_mode": reward_tracking_config["reward_mode"],
	"reward_variant": reward_tracking_config["reward_variant"],
	}
	)
	return obs.scenario_prompt

	def _step(self, tool_name: str, arguments: dict[str, Any] \| None = None) -> str:
	if self.done:
	raise ValueError("Episode is already over.")
	action = CyberSecurityOWASPAction(
	tool_name=tool_name,
	arguments=arguments or {},
	)
	obs = self._env.step(action)
	if not obs.last_action_valid:
	self.invalid_actions += 1
	self.reward = float(self._env.state.accumulated_reward)
	self.reward_breakdown = dict(obs.reward_breakdown or {})
	self.done = bool(obs.done)
	self.success = bool(self._env.state.success)
	self.trace_messages.extend(
	[
	{
	"role": "assistant",
	"content": f"{tool_name}({arguments or {}})",
	},
	{"role": "tool", "content": obs.message},
	]
	)
	self.trace_metadata.update(_state_snapshot(self._env))
	self.trace_metadata.update(
	{
	"last_action_valid": obs.last_action_valid,
	"last_action_error": obs.last_action_error,
	"reward": self.reward,
	"reward_breakdown": self.reward_breakdown,
	"invalid_actions": self.invalid_actions,
	"scenario_cache_hit": self._env.state.cache_hit,
	"scenario_hash": self._env.state.scenario_hash,
	"scenario_group_id": self.scenario_group_id,
	"scenario_assignment": dict(self.scenario_assignment),
	}
	)
	return obs.message

	def inspect_policy_graph(self) -> str:
	"""Return public policy hints for the generated local scenario."""
	return self._step("inspect_policy_graph")

	def list_routes(self) -> str:
	"""List generated local app route summaries."""
	return self._step("list_routes")

	def read_openapi(self) -> str:
	"""Read generated OpenAPI metadata for the local app."""
	return self._step("read_openapi")

	def read_file(self, path: str) -> str:
	"""
	Read an editable generated workspace file by relative path.

	Args:
	path: Relative path inside the generated editable workspace.

	Returns:
	The file contents or a safe tool error observation.
	"""
	return self._step("read_file", {"path": path})

	def search_code(self, query: str) -> str:
	"""
	Search editable generated workspace files for a string.

	Args:
	query: Search text to find in editable generated app files.

	Returns:
	Matching file lines or a no-match message.
	"""
	return self._step("search_code", {"query": query})

	def send_local_request(
	self,
	path: str,
	method: str = "GET",
	user_id: str \| None = None,
	) -> str:
	"""
	Send a request to the generated local app only.

	Args:
	path: Local route path such as /health or /invoices/<id>.
	method: HTTP method to use for the local request.
	user_id: Optional generated user identifier for authentication.

	Returns:
	JSON response from the simulated local app request.
	"""
	return self._step(
	"send_local_request",
	{"path": path, "method": method, "user_id": user_id},
	)

	def compare_identities(
	self,
	path: str,
	first_user_id: str,
	second_user_id: str,
	method: str = "GET",
	) -> str:
	"""
	Compare one local request as two generated users.

	Args:
	path: Local route path to request as both generated users.
	first_user_id: First generated user identifier.
	second_user_id: Second generated user identifier.
	method: HTTP method to use for both local requests.

	Returns:
	JSON summary of both simulated local responses.
	"""
	return self._step(
	"compare_identities",
	{
	"path": path,
	"method": method,
	"first_user_id": first_user_id,
	"second_user_id": second_user_id,
	},
	)

	def submit_diagnosis(
	self,
	bug_class: str,
	route: str,
	violated_policy_rule: str,
	evidence_trace_ids: list[str],
	fix_plan: str,
	) -> str:
	"""
	Submit structured diagnosis for the suspected authorization bug.

	Args:
	bug_class: Short class such as idor_ownership_bug.
	route: Method and route pattern believed to be vulnerable.
	violated_policy_rule: Policy rule that the behavior violates.
	evidence_trace_ids: Request trace IDs from local evidence tools.
	fix_plan: Concise secure repair plan.

	Returns:
	Diagnosis acceptance result and next phase information.
	"""
	return self._step(
	"submit_diagnosis",
	{
	"bug_class": bug_class,
	"route": route,
	"violated_policy_rule": violated_policy_rule,
	"evidence_trace_ids": evidence_trace_ids,
	"fix_plan": fix_plan,
	},
	)

	def patch_file(
	self,
	path: str,
	content: str \| None = None,
	diff: str \| None = None,
	) -> str:
	"""
	Patch an editable generated app file with full content or a unified diff.

	Args:
	path: Relative path of the editable generated app file to patch.
	content: Complete replacement file content, when using full-file patching.
	diff: Unified diff to apply, when using diff patching.

	Returns:
	Patch application result.
	"""
	args: dict[str, Any] = {"path": path}
	if content is not None:
	args["content"] = content
	if diff is not None:
	args["diff"] = diff
	return self._step("patch_file", args)

	def run_visible_tests(self) -> str:
	"""Run visible tests only; hidden tests are never exposed."""
	return self._step("run_visible_tests")

	def submit_fix(self) -> str:
	"""Submit the final patch to the hidden deterministic verifier."""
	return self._step("submit_fix")

	def noop(self) -> str:
	"""Take no action."""
	return self._step("noop")

	def _score(self, completion_tokens: int = 0) -> float:
	token_penalty = compute_token_penalty(completion_tokens)
	self._env.state.completion_tokens = int(completion_tokens)
	self._env.state.metrics["completion_tokens"] = int(completion_tokens)
	self._env.state.metrics["token_penalty"] = token_penalty
	return float(self._env.state.accumulated_reward + token_penalty)

	def __del__(self):
	try:
	self._env.close()
	except Exception:
	pass

	trace_step = {"value": 0}
	logged_trace_fingerprints: set[str] = set()

	def _completion_to_text(completion) -> str:
	if completion is None:
	return ""
	if isinstance(completion, str):
	return completion
	if isinstance(completion, list):
	parts = []
	for item in completion:
	if isinstance(item, dict):
	parts.append(str(item.get("content", item)))
	else:
	parts.append(str(item))
	return "\n".join(parts)
	return str(completion)

	def _mean(values: list[float]) -> float:
	return float(sum(values) / len(values)) if values else 0.0

	def cybersecurity_owasp_reward(environments, **kwargs) -> list[float]:
	completions = kwargs.get("completions") or kwargs.get("completion") or []
	completion_texts = [_completion_to_text(item) for item in completions]
	completion_tokens = [len(text.split()) for text in completion_texts]
	rewards = [
	float(env._score(completion_tokens[index] if index < len(completion_tokens) else 0))
	for index, env in enumerate(environments)
	]
	trace_step["value"] += 1

	episode_records = []
	for index, (env, reward) in enumerate(zip(environments, rewards)):
	record = episode_record_from_state(
	env._env.state,
	run_context={
	"base_model": model_name,
	"algo": "grpo",
	"reward_version": "reward_v2",
	"env_version": "0.1.0",
	**reward_tracking_config,
	},
	)
	record.update(
	{
	"reward_total": reward,
	"reward_token_penalty": float(env._env.state.metrics.get("token_penalty", 0.0)),
	"completion_tokens": completion_tokens[index] if index < len(completion_tokens) else 0,
	"success": bool(getattr(env, "success", False)),
	}
	)
	episode_records.append(record)

	group_successes: dict[int, list[float]] = {}
	for env in environments:
	group_id = int(getattr(env, "scenario_group_id", -1))
	if group_id < 0:
	continue
	group_successes.setdefault(group_id, []).append(1.0 if getattr(env, "success", False) else 0.0)
	for group_id, successes in group_successes.items():
	scenario_registry.record_group_outcome(group_id, _mean(successes))

	batch_fingerprints = [
	episode_trace_fingerprint(record)
	for record in episode_records
	]
	sampled_traces = []
	seen_this_batch: set[str] = set()
	duplicate_trace_suppressed_count = 0
	for index, (env, record, reward, fingerprint) in enumerate(
	zip(environments, episode_records, rewards, batch_fingerprints)
	):
	if fingerprint in seen_this_batch or fingerprint in logged_trace_fingerprints:
	duplicate_trace_suppressed_count += 1
	continue
	seen_this_batch.add(fingerprint)
	if len(sampled_traces) < 4:
	sampled_traces.append((index, env, record, reward, fingerprint))

	should_log_trace_artifacts = trace_log_every > 0 and (
	trace_step["value"] == 1
	or trace_step["value"] % trace_log_every == 0
	)
	canonical_metrics = aggregate_episode_metrics(episode_records)
	metrics = {
	**canonical_metrics,
	**train_metric_aliases(canonical_metrics),
	**scenario_registry.metrics(
	episode_records,
	unique_trace_count=len(set(batch_fingerprints)),
	duplicate_trace_suppressed_count=duplicate_trace_suppressed_count,
	),
	}
	metrics["train/per_device_train_batch_size"] = float(per_device_train_batch_size)
	metrics["train/gradient_accumulation_steps"] = float(
	resolved_gradient_accumulation_steps
	)
	metrics["train/effective_train_batch_size"] = float(effective_train_batch_size)
	metrics["train/num_generations"] = float(num_generations)
	metrics["train/use_vllm"] = float(bool(use_vllm))
	metrics["train/vllm_gpu_memory_utilization"] = (
	float(vllm_gpu_memory_utilization) if use_vllm else 0.0
	)
	metrics["train/trace_log_every"] = float(trace_log_every)
	metrics["train/trace_artifacts_logged"] = float(should_log_trace_artifacts)
	if rewards:
	metrics["train/reward_mean"] = _mean(rewards)
	metrics["train/reward_std"] = statistics.pstdev(rewards) if len(rewards) > 1 else 0.0

	try:
	log_trackio_metrics(metrics, step=trace_step["value"])
	except Exception as exc:
	print(f"Trackio metric logging skipped: {exc!r}")

	if should_log_trace_artifacts and sampled_traces:
	try:
	log_trace_table(
	[record for _, _, record, _, _ in sampled_traces],
	table_name="sample_traces",
	step=trace_step["value"],
	)
	except Exception as exc:
	print(f"Trackio sample trace table logging skipped: {exc!r}")

	for index, env, _record, reward, fingerprint in sampled_traces:
	logged_trace_fingerprints.add(fingerprint)
	messages = list(getattr(env, "trace_messages", []))
	if index < len(completions):
	completion_text = _completion_to_text(completions[index])
	if completion_text:
	messages.append(
	{
	"role": "assistant",
	"content": f"Raw generated completion:\n{completion_text}",
	}
	)
	metadata = dict(getattr(env, "trace_metadata", {}))
	metadata.update(
	{
	"sample_index": index,
	"reward": reward,
	"trace_step": trace_step["value"],
	"trace_fingerprint": fingerprint,
	"num_generations": num_generations,
	"run_name": run_name,
	"reward_config_id": reward_tracking_config["reward_config_id"],
	"reward_config_hash": reward_tracking_config["reward_config_hash"],
	"reward_stage": reward_tracking_config["reward_stage"],
	"reward_mode": reward_tracking_config["reward_mode"],
	"reward_variant": reward_tracking_config["reward_variant"],
	}
	)
	try:
	trackio.log(
	{
	f"cybersecurity_owasp_trace/sample_{index}": trackio.Trace(
	messages=messages,
	metadata=metadata,
	)
	},
	step=trace_step["value"],
	)
	except Exception as exc:
	print(f"Trackio trace logging skipped: {exc!r}")
	elif sampled_traces:
	print(
	"Trackio trace artifacts throttled at reward callback "
	f"{trace_step['value']}; set --trace-log-every 1 for every callback "
	"or 0 to disable trace artifacts."
	)

	if rewards:
	print(
	"Reward batch: "
	f"mean={statistics.mean(rewards):.3f}, "
	f"min={min(rewards):.3f}, max={max(rewards):.3f}"
	)
	return rewards

	class TrackioSystemMetricsCallback(TrainerCallback):
	def on_train_begin(self, args, state, control, **kwargs):
	try:
	reward_summary = log_reward_config(reward_settings, step=int(state.global_step or 0))
	metrics = log_gpu_metrics(step=int(state.global_step or 0))
	log_trackio_metrics(
	{
	"system/model_cache_hit": float(cache_hit),
	"system/scenario_cache_required": 1.0,
	"system/scenario_cache_entries": float(
	scenario_cache_coverage.get("entries", 0)
	),
	"system/hub_push_enabled": float(push_to_hub),
	},
	step=int(state.global_step or 0),
	)
	print(
	"Trackio reward config logged: "
	f"{reward_summary['reward_config_id']} "
	f"({reward_summary['reward_config_hash']})"
	)
	except Exception as exc:
	print(f"Trackio initialization metrics skipped: {exc!r}")
	return control
	if metrics:
	system_summary = ", ".join(
	f"{key}={value}"
	for key, value in sorted(metrics.items())
	if key.startswith("system/")
	)
	print(f"Trackio GPU metrics initialized: {system_summary}")
	return control

	def on_log(self, args, state, control, logs=None, **kwargs):
	try:
	metrics = log_gpu_metrics(step=int(state.global_step or 0))
	except Exception as exc:
	print(f"Trackio GPU metrics skipped: {exc!r}")
	return control
	if metrics:
	summary = ", ".join(f"{key}={value}" for key, value in sorted(metrics.items())[:4])
	print(f"Trackio GPU metrics logged at step {state.global_step}: {summary}")
	return control

	def on_train_end(self, args, state, control, **kwargs):
	try:
	log_gpu_metrics(step=int(state.global_step or 0))
	except Exception as exc:
	print(f"Trackio final GPU metrics skipped: {exc!r}")
	return control

	print(f"CUDA available: {torch.cuda.is_available()}")
	if source_mode == "public":
	print(f"Installed CyberSecurity_OWASP from public repo: {repo_url}@{repo_branch}")
	else:
	print(f"Packaged local CyberSecurity_OWASP repo; default env repo id: {env_repo_id}")
	print(f"Trackio Space: {trackio_space_id}")
	print(f"Trackio Project: {trackio_project}")
	print(f"Output repo: {output_repo_id}")
	print(f"Run name: {run_name}")
	print(f"Reward config: {reward_tracking_config['reward_config_id']}")
	print(f"Reward config hash: {reward_tracking_config['reward_config_hash']}")
	print(f"Reward variant: {reward_tracking_config['reward_variant']}")
	print(f"Reward config path: {reward_tracking_config['reward_config_path']}")
	print(f"Learning rate: {learning_rate}")
	print(f"Reward env overrides: {reward_env}")
	print(f"Model cache volume: {CACHE_VOLUME_NAME}")
	print(f"Scenario cache volume: {SCENARIO_CACHE_VOLUME_NAME}")
	print(f"Scenario cache dir: {scenario_cache_env['CYBERSECURITY_OWASP_SCENARIO_CACHE_DIR']}")
	print("Scenario cache mode: require")
	print(f"Scenario cache coverage: {scenario_cache_coverage}")
	print(f"HF_HOME: {cache_env['HF_HOME']}")
	print(f"HF_HUB_CACHE: {cache_env['HF_HUB_CACHE']}")
	print(f"Torch cache: {cache_env['TORCH_HOME']}")
	print(f"Unsloth cache: {cache_env['UNSLOTH_CACHE_DIR']}")
	print(f"Triton cache: {cache_env['TRITON_CACHE_DIR']}")
	print(f"Hub push enabled: {push_to_hub}")
	if initial_adapter_path:
	print(f"Initial SFT adapter path: {initial_adapter_path}")
	if initial_adapter_repo_id:
	print(f"Initial SFT adapter repo: https://huggingface.co/{initial_adapter_repo_id}")
	print(
	"GRPO throughput config: "
	f"per_device_train_batch_size={per_device_train_batch_size}, "
	f"gradient_accumulation_steps={resolved_gradient_accumulation_steps}, "
	f"num_generations={num_generations}, "
	f"world_size={world_size}, "
	f"effective_train_batch_size={effective_train_batch_size}"
	)
	print(
	"Generation acceleration config: "
	f"use_vllm={use_vllm}, "
	f"vllm_gpu_memory_utilization={vllm_gpu_memory_utilization}, "
	f"trace_log_every={trace_log_every}"
	)

	expected_model_cache = _hf_model_cache_path(model_name)
	cache_hit = expected_model_cache.exists()
	print(f"Expected HF model cache path: {expected_model_cache}")
	print(f"Model cache hit before load: {cache_hit}")
	if cache_hit:
	print("Using cached model snapshot from the persistent Modal volume when valid.")
	else:
	print(
	"Model cache miss. Downloading model weights once into the persistent "
	"Modal cache volume; Hugging Face progress output should follow."
	)
	try:
	snapshot_path = snapshot_download(
	repo_id=model_name,
	cache_dir=str(HF_HUB_CACHE_DIR),
	token=hf_token,
	)
	print(f"Model snapshot ready: {snapshot_path}")
	cache_volume.commit()
	print(f"Committed Modal model cache volume after snapshot download: {CACHE_VOLUME_NAME}")
	except Exception as exc:
	print(
	"Explicit model snapshot prefetch failed; Unsloth will attempt the "
	f"model load directly. Error: {exc!r}"
	)

	print(f"Loading model with Unsloth from_pretrained: {model_name}")
	model_api = FastVisionModel
	model_load_values = {
	"model_name": model_name,
	"max_seq_length": max_seq_length,
	"load_in_4bit": False,
	"fast_inference": use_vllm,
	"gpu_memory_utilization": vllm_gpu_memory_utilization if use_vllm else None,
	"cache_dir": str(HF_HUB_CACHE_DIR),
	"token": hf_token,
	}
	from_pretrained_parameters = inspect.signature(model_api.from_pretrained).parameters
	from_pretrained_accepts_kwargs = any(
	parameter.kind == inspect.Parameter.VAR_KEYWORD
	for parameter in from_pretrained_parameters.values()
	)
	skipped_model_load_keys = sorted(
	key
	for key, value in model_load_values.items()
	if value is not None
	and key not in from_pretrained_parameters
	and not from_pretrained_accepts_kwargs
	)
	if skipped_model_load_keys:
	print(f"Skipping unsupported from_pretrained keys: {skipped_model_load_keys}")
	model, tokenizer = model_api.from_pretrained(
	**{
	key: value
	for key, value in model_load_values.items()
	if value is not None
	and (key in from_pretrained_parameters or from_pretrained_accepts_kwargs)
	}
	)
	print("Model load complete.")
	cache_volume.commit()
	print(f"Committed Modal model cache volume after model load: {CACHE_VOLUME_NAME}")
	try:
	tokenizer = add_response_schema(tokenizer)
	except Exception as exc:
	print(
	"Tokenizer response schema add skipped for Gemma 4 processor, "
	"matching the Unsloth Gemma 4 GRPO notebook pattern: "
	f"{exc!r}"
	)

	adapter_source = initial_adapter_path
	if initial_adapter_repo_id:
	print(f"Downloading initial SFT adapter: {initial_adapter_repo_id}")
	adapter_source = snapshot_download(
	repo_id=initial_adapter_repo_id,
	cache_dir=str(HF_HUB_CACHE_DIR),
	token=hf_token,
	)
	cache_volume.commit()
	if adapter_source:
	print(f"Loading initial SFT adapter for trainable GRPO continuation: {adapter_source}")
	adapter_source_path = pathlib.Path(adapter_source)
	adapter_config_path = adapter_source_path / "adapter_config.json"
	if not adapter_config_path.exists():
	raise RuntimeError(f"Initial SFT adapter config not found: {adapter_config_path}")
	adapter_config = json.loads(adapter_config_path.read_text(encoding="utf-8"))
	adapter_rank = int(adapter_config.get("r") or lora_rank)
	adapter_alpha = int(adapter_config.get("lora_alpha") or adapter_rank * 2)
	adapter_target_modules = adapter_config.get("target_modules") or [
	"q_proj",
	"k_proj",
	"v_proj",
	"o_proj",
	"gate_proj",
	"up_proj",
	"down_proj",
	]
	adapter_target_modules = list(adapter_target_modules)
	print(
	"Attaching Unsloth LoRA before loading SFT weights: "
	f"rank={adapter_rank}, alpha={adapter_alpha}, targets={adapter_target_modules}"
	)
	model = model_api.get_peft_model(
	model,
	r=adapter_rank,
	target_modules=adapter_target_modules,
	lora_alpha=adapter_alpha,
	use_gradient_checkpointing="unsloth",
	random_state=3407,
	)
	adapter_weights_path = adapter_source_path / "adapter_model.safetensors"
	if not adapter_weights_path.exists():
	raise RuntimeError(f"Initial SFT adapter weights not found: {adapter_weights_path}")
	adapter_state = load_safetensors_file(str(adapter_weights_path), device="cpu")
	adapter_load_result = set_peft_model_state_dict(
	model,
	adapter_state,
	adapter_name="default",
	)
	unexpected_adapter_keys = sorted(
	key
	for key in getattr(adapter_load_result, "unexpected_keys", [])
	if "lora_" in key or "modules_to_save" in key
	)
	if unexpected_adapter_keys:
	raise RuntimeError(
	"Initial SFT adapter keys do not match the trainable Unsloth LoRA. "
	f"Unexpected adapter keys: {unexpected_adapter_keys[:10]}"
	)
	missing_lora_keys = sorted(
	key
	for key in getattr(adapter_load_result, "missing_keys", [])
	if "lora_" in key or "modules_to_save" in key
	)
	if missing_lora_keys:
	print(f"Missing LoRA keys while loading SFT adapter: {missing_lora_keys[:10]}")
	if hasattr(model, "print_trainable_parameters"):
	model.print_trainable_parameters()
	else:
	model = model_api.get_peft_model(
	model,
	r=lora_rank,
	target_modules=[
	"q_proj",
	"k_proj",
	"v_proj",
	"o_proj",
	"gate_proj",
	"up_proj",
	"down_proj",
	],
	lora_alpha=lora_rank * 2,
	use_gradient_checkpointing="unsloth",
	random_state=3407,
	)
	if hasattr(model_api, "for_training"):
	model_api.for_training(model)
	print("LoRA adapter ready and model switched to training mode.")

	grpo_config_values = {
	"temperature": 1.0,
	"learning_rate": learning_rate,
	"weight_decay": 0.001,
	"warmup_ratio": 0.1,
	"lr_scheduler_type": "linear",
	"optim": "adamw_8bit",
	"logging_steps": 1,
	"per_device_train_batch_size": per_device_train_batch_size,
	"gradient_accumulation_steps": resolved_gradient_accumulation_steps,
	"num_generations": num_generations,
	"max_prompt_length": max_seq_length,
	"max_completion_length": max_completion_length,
	"max_steps": max_steps,
	"save_steps": max(10, max_steps),
	"report_to": "trackio",
	"project": trackio_project,
	"trackio_space_id": trackio_space_id,
	"run_name": run_name,
	"output_dir": str(output_dir),
	"push_to_hub": push_to_hub,
	"hub_model_id": output_repo_id,
	"hub_private_repo": True,
	"hub_strategy": "every_save",
	"gradient_checkpointing": True,
	"gradient_checkpointing_kwargs": {"use_reentrant": False},
	"use_vllm": use_vllm,
	"vllm_mode": "colocate",
	"vllm_gpu_memory_utilization": vllm_gpu_memory_utilization,
	"epsilon": 0.2,
	"epsilon_high": 0.28,
	"delta": 1.5,
	"loss_type": "bnpo",
	"mask_truncated_completions": False,
	}
	grpo_config_parameters = set(inspect.signature(GRPOConfig).parameters)
	skipped_config_keys = sorted(set(grpo_config_values) - grpo_config_parameters)
	if skipped_config_keys:
	print(f"Skipping unsupported GRPOConfig keys: {skipped_config_keys}")
	training_args = GRPOConfig(
	**{
	key: value
	for key, value in grpo_config_values.items()
	if key in grpo_config_parameters
	}
	)

	trainer_values = {
	"model": model,
	"processing_class": tokenizer,
	"reward_funcs": cybersecurity_owasp_reward,
	"args": training_args,
	"train_dataset": dataset,
	"environment_factory": CyberSecurityOWASPToolEnv,
	"callbacks": [TrackioSystemMetricsCallback()],
	}
	trainer_parameters = set(inspect.signature(GRPOTrainer).parameters)
	skipped_trainer_keys = sorted(set(trainer_values) - trainer_parameters)
	if skipped_trainer_keys:
	print(f"Skipping unsupported GRPOTrainer keys: {skipped_trainer_keys}")
	trainer = GRPOTrainer(
	**{
	key: value
	for key, value in trainer_values.items()
	if key in trainer_parameters
	}
	)
	print("Starting GRPO trainer.train().")
	heartbeat_stop = threading.Event()

	def _training_heartbeat() -> None:
	start_time = time.monotonic()
	while not heartbeat_stop.wait(30):
	elapsed = int(time.monotonic() - start_time)
	print(
	"Training heartbeat: still inside trainer.train() "
	f"after {elapsed}s. For this smoke, the slow part is usually "
	f"Gemma generation/backprop: {num_generations} completions "
	f"up to {max_completion_length} tokens, plus Trackio upload."
	)

	heartbeat_thread = threading.Thread(
	target=_training_heartbeat,
	name="grpo-training-heartbeat",
	daemon=True,
	)
	heartbeat_thread.start()
	try:
	trainer.train()
	finally:
	heartbeat_stop.set()
	heartbeat_thread.join(timeout=2)
	print("GRPO trainer.train() complete.")
	if push_to_hub:
	print(f"Pushing LoRA adapter to Hugging Face Hub: {output_repo_id}")
	trainer.push_to_hub()
	print("Hub push complete.")
	else:
	print("Skipping Hub push for this run. Pass --push-to-hub to upload adapters.")
	volume.commit()
	cache_volume.commit()
	scenario_cache_volume.commit()
	print(f"Committed run volume: {VOLUME_NAME}")
	print(f"Committed model cache volume: {CACHE_VOLUME_NAME}")
	print(f"Committed scenario cache volume: {SCENARIO_CACHE_VOLUME_NAME}")
	try:
	trackio.finish()
	except RuntimeError as exc:
	print(f"Trackio finish skipped because the trainer already finalized it: {exc}")

	return {
	"run_name": run_name,
	"env_repo_id": env_repo_id,
	"output_repo_id": output_repo_id,
	"trackio_space_id": trackio_space_id,
	"trackio_project": trackio_project,
	"max_steps": max_steps,
	"dataset_size": dataset_size,
	"difficulty": difficulty,
	"split": split,
	"model_name": model_name,
	"initial_adapter_path": initial_adapter_path,
	"initial_adapter_repo_id": initial_adapter_repo_id,
	"max_completion_length": max_completion_length,
	"num_generations": num_generations,
	"per_device_train_batch_size": per_device_train_batch_size,
	"gradient_accumulation_steps": resolved_gradient_accumulation_steps,
	"learning_rate": learning_rate,
	"effective_train_batch_size": effective_train_batch_size,
	"use_vllm": int(bool(use_vllm)),
	"vllm_gpu_memory_utilization": vllm_gpu_memory_utilization,
	"trace_log_every": trace_log_every,
	"source_mode": source_mode,
	"repo_url": repo_url,
	"repo_branch": repo_branch,
	"push_to_hub": push_to_hub,
	"scenario_cache_volume": SCENARIO_CACHE_VOLUME_NAME,
	"scenario_cache_mode": "require",
	"reward_variant": reward_tracking_config["reward_variant"],
	**reward_tracking_config,
	}


	@app.local_entrypoint()
	def main(
	mode: str = "train",
	env_repo_id: str = "",
	output_repo_id: str = "",
	initial_adapter_path: str = "",
	initial_adapter_repo_id: str = "",
	max_steps: int = 10,
	dataset_size: int = 16,
	difficulty: int = 0,
	split: str = "train",
	model_name: str = DEFAULT_GEMMA_MODEL,
	max_seq_length: int = 4096,
	max_completion_length: int = 768,
	lora_rank: int = 32,
	trackio_space_id: str = "Humanlearning/CyberSecurity_OWASP-trackio",
	trackio_project: str = "CyberSecurity_OWASP-grpo",
	num_generations: int = 6,
	per_device_train_batch_size: int = 1,
	gradient_accumulation_steps: int = 0,
	learning_rate: float = 5e-6,
	use_vllm: bool = False,
	vllm_gpu_memory_utilization: float = 0.2,
	trace_log_every: int = 5,
	seed_start: int = 0,
	git_sha: str = "nogit",
	run_name: str = "",
	source_mode: str = "local",
	repo_url: str = PUBLIC_REPO_URL,
	repo_branch: str = PUBLIC_REPO_BRANCH,
	detach: bool = False,
	push_to_hub: bool = False,
	reward_config: str = "",
	reward_variant: str = "",
	cache_seed_start: int = 0,
	cache_difficulty_buckets: int = 0,
	cache_train_per_bucket: int = 0,
	cache_validation_per_bucket: int = 0,
	cache_heldout_per_bucket: int = 0,
	cache_force: bool = False,
	) -> None:
	model_name = _ensure_gemma4_model(model_name)
	if mode == "prepare-cache":
	result = prepare_modal_scenario_cache.remote(
	seed_start=cache_seed_start,
	difficulty_buckets=cache_difficulty_buckets,
	train_per_bucket=cache_train_per_bucket,
	validation_per_bucket=cache_validation_per_bucket,
	heldout_per_bucket=cache_heldout_per_bucket,
	force=cache_force,
	)
	print(f"Prepared scenario cache: {result}")
	return
	if mode == "config":
	result = check_training_imports.remote()
	print(result)
	return
	if mode == "baseline":
	if int(num_generations) != 1:
	raise ValueError("baseline mode expects --num-generations 1.")
	trace_log_every = max(0, int(trace_log_every))
	run_name = run_name or "baseline"
	preflight = verify_modal_scenario_cache_for_training.remote(
	split=split,
	difficulty=difficulty,
	dataset_size=dataset_size,
	seed_start=seed_start,
	)
	print(f"CPU scenario cache preflight passed: {preflight}")
	kwargs = dict(
	max_steps=max_steps,
	dataset_size=dataset_size,
	difficulty=difficulty,
	split=split,
	model_name=model_name,
	max_seq_length=max_seq_length,
	max_completion_length=max_completion_length,
	trackio_space_id=trackio_space_id,
	trackio_project=trackio_project,
	num_generations=num_generations,
	trace_log_every=trace_log_every,
	seed_start=seed_start,
	git_sha=git_sha,
	run_name=run_name,
	source_mode=source_mode,
	repo_url=repo_url,
	repo_branch=repo_branch,
	reward_config=reward_config,
	reward_variant=reward_variant,
	)
	if detach:
	call = run_cybersecurity_owasp_baseline.spawn(**kwargs)
	print(f"Spawned Modal baseline call: {call.object_id}")
	else:
	result = run_cybersecurity_owasp_baseline.remote(**kwargs)
	print(f"Baseline result: {result}")
	return
	if mode != "train":
	raise ValueError("mode must be 'prepare-cache', 'train', 'baseline', or 'config'")

	(
	resolved_gradient_accumulation_steps,
	effective_train_batch_size,
	) = _resolve_grpo_batch_config(
	per_device_train_batch_size=per_device_train_batch_size,
	gradient_accumulation_steps=gradient_accumulation_steps,
	num_generations=num_generations,
	world_size=1,
	)
	_validate_vllm_config(
	use_vllm=use_vllm,
	vllm_gpu_memory_utilization=vllm_gpu_memory_utilization,
	)
	trace_log_every = max(0, int(trace_log_every))

	trackio_space_id = trackio_space_id or os.environ.get(
	"TRACKIO_SPACE_ID",
	"Humanlearning/CyberSecurity_OWASP-trackio",
	)
	trackio_project = trackio_project or os.environ.get(
	"TRACKIO_PROJECT", "CyberSecurity_OWASP-grpo"
	)
	resolved_trackio_space_id = trackio_space_id
	resolved_output_repo_id = output_repo_id
	if not resolved_trackio_space_id or not resolved_output_repo_id:
	hf_token = os.environ.get("HF_TOKEN")
	if hf_token:
	try:
	from huggingface_hub import whoami

	user = whoami(token=hf_token)["name"]
	if not resolved_trackio_space_id:
	resolved_trackio_space_id = (
	f"{user}/CyberSecurity_OWASP-trackio"
	if user == "humandotlearning"
	else "Humanlearning/CyberSecurity_OWASP-trackio"
	)
	resolved_output_repo_id = (
	resolved_output_repo_id
	or f"{user}/{_grpo_output_repo_slug(model_name, initial_adapter_path=initial_adapter_path, initial_adapter_repo_id=initial_adapter_repo_id)}"
	)
	except Exception as exc:
	print(f"Could not resolve Hugging Face defaults locally: {exc!r}")

	if git_sha == "nogit":
	try:
	git_sha = subprocess.check_output(
	[
	"git",
	"-c",
	f"safe.directory={PROJECT_ROOT.as_posix()}",
	"rev-parse",
	"HEAD",
	],
	cwd=PROJECT_ROOT,
	text=True,
	stderr=subprocess.DEVNULL,
	).strip()
	except Exception:
	git_sha = "nogit"

	model_slug = model_name.replace("/", "-")
	local_stamp = datetime.now(timezone.utc).strftime("%Y%m%d-%H%M%S")
	variant_tag = reward_variant or "default"
	algo_tag = _grpo_run_algo_tag(
	initial_adapter_path=initial_adapter_path,
	initial_adapter_repo_id=initial_adapter_repo_id,
	)
	run_name = run_name or (
	f"CyberSecurity_OWASP-{model_slug}-{algo_tag}-level{difficulty}-"
	f"{variant_tag}-steps{max_steps}-seed{seed_start}-{local_stamp}-{git_sha[:8]}"
	)

	print(f"Run name: {run_name}")
	print(f"Reward variant: {variant_tag}")
	print(f"Reward config path: {reward_config or '(default training/configs/grpo_small.yaml)'}")
	print(f"Source mode: {source_mode}")
	if source_mode == "public":
	print(f"Public repo: {repo_url}@{repo_branch}")
	if resolved_trackio_space_id:
	print(f"Trackio Space: https://huggingface.co/spaces/{resolved_trackio_space_id}")
	else:
	print("Trackio Space: derived remotely from HF_TOKEN as <hf-user>/CyberSecurity_OWASP-trackio")
	if resolved_output_repo_id:
	print(f"Output model repo: https://huggingface.co/{resolved_output_repo_id}")
	else:
	print(
	"Output model repo: derived remotely from HF_TOKEN as "
	f"<hf-user>/{_grpo_output_repo_slug(model_name, initial_adapter_path=initial_adapter_path, initial_adapter_repo_id=initial_adapter_repo_id)}"
	)
	print(f"Hub push enabled: {push_to_hub}")
	if initial_adapter_path:
	print(f"Initial SFT adapter path: {initial_adapter_path}")
	if initial_adapter_repo_id:
	print(f"Initial SFT adapter repo: https://huggingface.co/{initial_adapter_repo_id}")
	print(f"Model cache volume: {CACHE_VOLUME_NAME}")
	print(f"Scenario cache volume: {SCENARIO_CACHE_VOLUME_NAME}")
	print(
	"GRPO throughput config: "
	f"per_device_train_batch_size={per_device_train_batch_size}, "
	f"gradient_accumulation_steps={resolved_gradient_accumulation_steps}, "
	f"num_generations={num_generations}, "
	f"effective_train_batch_size={effective_train_batch_size}, "
	f"learning_rate={learning_rate}"
	)
	print(
	"Generation acceleration config: "
	f"use_vllm={use_vllm}, "
	f"vllm_gpu_memory_utilization={vllm_gpu_memory_utilization}, "
	f"trace_log_every={trace_log_every}"
	)
	print("Launch phases:")
	print(
	"1. Modal image build/validation: happens before remote Python logs; "
	"slow when local source or dependency layers changed."
	)
	print("2. CPU-only scenario cache preflight in CyberSecurity_OWASP-scenario-cache.")
	print(f"3. GPU container start after cache preflight passes; fallback={GRPO_GPU_FALLBACK}.")
	print("4. Model cache check in CyberSecurity_OWASP-model-cache.")
	print("5. Cached snapshot load into GPU RAM with Unsloth progress.")
	print("6. GRPO steps, Trackio sync, and volume commit.")
	print(
	"If there is a long pause after trainer.train() starts, watch for "
	"Training heartbeat lines every 30 seconds."
	)

	kwargs = dict(
	env_repo_id=env_repo_id,
	output_repo_id=output_repo_id,
	initial_adapter_path=initial_adapter_path,
	initial_adapter_repo_id=initial_adapter_repo_id,
	max_steps=max_steps,
	dataset_size=dataset_size,
	difficulty=difficulty,
	split=split,
	model_name=model_name,
	max_seq_length=max_seq_length,
	max_completion_length=max_completion_length,
	lora_rank=lora_rank,
	trackio_space_id=trackio_space_id,
	trackio_project=trackio_project,
	num_generations=num_generations,
	per_device_train_batch_size=per_device_train_batch_size,
	gradient_accumulation_steps=resolved_gradient_accumulation_steps,
	learning_rate=learning_rate,
	use_vllm=use_vllm,
	vllm_gpu_memory_utilization=vllm_gpu_memory_utilization,
	trace_log_every=trace_log_every,
	seed_start=seed_start,
	git_sha=git_sha,
	run_name=run_name,
	source_mode=source_mode,
	repo_url=repo_url,
	repo_branch=repo_branch,
	push_to_hub=push_to_hub,
	reward_config=reward_config,
	reward_variant=reward_variant,
	)
	preflight = verify_modal_scenario_cache_for_training.remote(
	split=split,
	difficulty=difficulty,
	dataset_size=dataset_size,
	seed_start=seed_start,
	)
	print(f"CPU scenario cache preflight passed: {preflight}")
	if detach:
	call = train_cybersecurity_owasp_grpo.spawn(**kwargs)
	print(f"Spawned Modal training call: {call.object_id}")
	else:
	result = train_cybersecurity_owasp_grpo.remote(**kwargs)
	print(f"Training result: {result}")