test-rl-hackathon-budget

Sleeping

test-rl-hackathon-budget / train /smoke_test.py

Akshay Babbar

chore: HF Space export (size filter)

98a5a8c 12 days ago

10.3 kB

	"""
	GRPO Smoke Test — 10 gradient steps, M4 Mac MPS (or CUDA/CPU).

	PURPOSE
	Validate the full TRL training loop (model → rollout → reward → gradient)
	works end-to-end with BudgetRouterGRPOEnv before a full training run.
	NOT for actual learning — 10 steps is statistical noise.

	USAGE
	Requires optional GRPO deps (`uv sync --extra grpo`), then e.g.:

	PYTORCH_ENABLE_MPS_FALLBACK=1 uv run python train/smoke_test.py

	EXPECTED RUNTIME
	~5-10 min on M4 Mac 48 GB (MPS, Qwen2.5-0.5B-Instruct)

	HYPERPARAMETERS (source)
	- learning_rate, beta, temperature: DeepSeek-R1 GRPO paper + TRL Wordle example
	- num_generations=4: minimum GRPO group; 8+ for real training
	- max_completion_length=512: enough for ~10 multi-turn tool calls at 0.5B
	- optim=adamw_torch: paged_adamw_8bit is CUDA-only
	- No vLLM, no load_in_4bit: both CUDA-only

	PASS CRITERIA
	- 10 gradient steps complete without exception
	- reward_mean is a finite float (0.0 acceptable — model is untrained)
	- loss is finite
	"""

	from __future__ import annotations

	import math
	import os
	import sys
	import time

	# Must be set before importing torch — causes MPS to fall back to CPU for
	# unsupported Metal ops (e.g. some GRPOTrainer matmul variants).
	os.environ.setdefault("PYTORCH_ENABLE_MPS_FALLBACK", "1")
	# Suppress tokenizer parallelism warnings
	os.environ.setdefault("TOKENIZERS_PARALLELISM", "false")

	try:
	import torch
	from datasets import Dataset
	from peft import LoraConfig
	from transformers import AutoModelForCausalLM, AutoTokenizer, TrainerCallback
	from trl import GRPOConfig, GRPOTrainer
	except ModuleNotFoundError as exc:
	name = getattr(exc, "name", None) or str(exc)
	print(
	"\nGRPO smoke test requires optional packages (torch, datasets, trl, …).\n"
	f"Missing: {name}\n\n"
	"Install with:\n"
	" uv sync --extra grpo\n\n"
	"Then re-run this script.\n",
	file=sys.stderr,
	)
	raise SystemExit(1) from exc

	from budget_router.reward import grade_episode
	from train.grpo_env import BudgetRouterGRPOEnv

	# ── Constants ────────────────────────────────────────────────────────────────

	# Smallest Qwen2.5 with validated function-calling support.
	# Smoke test only — use Qwen2.5-1.5B-Instruct for real training.
	MODEL_NAME = "Qwen/Qwen2.5-0.5B-Instruct"

	SYSTEM_PROMPT = (
	"You are a budget-aware API router. "
	"Use the available tools to route each request to the best provider. "
	"Adapt when providers degrade — switch away from failing providers early."
	)

	# ── Reward function ──────────────────────────────────────────────────────────

	def reward_func(environments, **kwargs):
	"""
	TRL reads env instances after each rollout. Returns List[float] in [0, 1].
	grade_episode() is the calibrated grader used by the eval pipeline — keeps
	training and eval metrics consistent.
	"""
	rewards = []
	for env in environments:
	history = env._env._internal.history
	if not history:
	# Model made no tool calls — assign 0, not an error
	rewards.append(0.0)
	else:
	rewards.append(float(grade_episode(history)["overall_score"]))
	return rewards

	# ── Dataset ──────────────────────────────────────────────────────────────────

	def build_dataset(n: int = 32) -> Dataset:
	"""
	Minimal dataset. Columns become **kwargs in BudgetRouterGRPOEnv.reset().
	'prompt' is required by GRPOTrainer (messages format).
	'scenario' and 'seed' are passed to reset() for episode configuration.
	"""
	return Dataset.from_list([
	{
	"prompt": [
	{"role": "system", "content": SYSTEM_PROMPT},
	{"role": "user", "content": "Route the incoming requests optimally."},
	],
	"scenario": "hard_multi",
	"seed": i,
	}
	for i in range(n)
	])

	# ── Step logger ──────────────────────────────────────────────────────────────

	class SmokeTestCallback(TrainerCallback):
	"""Captures per-step metrics for PASS/FAIL evaluation."""

	def __init__(self):
	self.steps: list[dict] = []

	def on_log(self, args, state, control, logs=None, **kwargs):
	if not logs or state.global_step == 0:
	return
	# TRL 1.x logs reward under "reward" or "train/reward"
	reward_mean = logs.get("reward", logs.get("train/reward", float("nan")))
	reward_std = logs.get("reward_std", logs.get("train/reward_std", float("nan")))
	loss = logs.get("loss", logs.get("train/loss", float("nan")))
	entry = {
	"step": state.global_step,
	"reward_mean": float(reward_mean),
	"reward_std": float(reward_std),
	"loss": float(loss),
	}
	self.steps.append(entry)
	print(
	f" Step {entry['step']:02d}/10 \| "
	f"loss={entry['loss']:.4f} \| "
	f"reward_mean={entry['reward_mean']:.4f} \| "
	f"reward_std={entry['reward_std']:.4f}"
	)

	# ── Main ─────────────────────────────────────────────────────────────────────

	def main():
	t0 = time.time()

	# Device detection
	if torch.backends.mps.is_available():
	device = "mps"
	elif torch.cuda.is_available():
	device = "cuda"
	else:
	device = "cpu"

	print("=" * 62)
	print("GRPO Smoke Test — Budget Router")
	print("=" * 62)
	print(f"Device : {device.upper()}")
	print(f"Model : {MODEL_NAME}")
	print(f"Steps : 10 (num_generations=4 → 40 rollouts total)")
	print(f"Torch : {torch.__version__}")
	if device == "cpu":
	print("⚠️ WARNING: Running on CPU. Expect ~30-60 min for 10 steps.")
	print("=" * 62)

	# Load model — explicit dtype for MPS (bfloat16 supported on M-series)
	print("\nLoading model (may download on first run)...")
	dtype = torch.bfloat16 if device in ("mps", "cuda") else torch.float32
	model = AutoModelForCausalLM.from_pretrained(
	MODEL_NAME,
	torch_dtype=dtype,
	trust_remote_code=True,
	)
	tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, trust_remote_code=True)
	if tokenizer.pad_token is None:
	tokenizer.pad_token = tokenizer.eos_token

	# LoRA: small rank for smoke test — keeps memory and step time low
	peft_config = LoraConfig(
	r=8,
	lora_alpha=16,
	target_modules=["q_proj", "v_proj"],
	lora_dropout=0.05,
	bias="none",
	task_type="CAUSAL_LM",
	)

	# GRPOConfig — hyperparams per TRL/OpenEnv Wordle example + DeepSeek-R1
	# Source: https://huggingface.co/docs/trl/openenv (Wordle section)
	# DeepSeek-R1 paper: lr=1e-6, temp=1.0, beta=0.001
	args = GRPOConfig(
	max_steps=10,
	per_device_train_batch_size=1,
	gradient_accumulation_steps=1,
	num_generations=4, # min for GRPO; use 8 for real runs
	generation_batch_size=4, # TRL 1.x: must be divisible by num_generations (see learn_experiment.py)
	max_completion_length=512, # ~10 multi-turn tool-call turns
	temperature=1.0, # diverse exploration (DeepSeek-R1)
	beta=0.001, # KL penalty; small for verifiable tasks
	learning_rate=5e-7, # conservative; real training: 1e-6
	optim="adamw_torch", # paged_adamw_8bit is CUDA-only
	report_to="none", # no WandB prompt
	logging_steps=1, # log every step for smoke visibility
	remove_unused_columns=False, # CRITICAL: keeps scenario/seed cols for reset()
	dataloader_num_workers=0, # avoid MPS multiprocessing issues
	output_dir="/tmp/grpo_smoke",
	)

	dataset = build_dataset(n=32)
	logger = SmokeTestCallback()

	trainer = GRPOTrainer(
	model=model,
	processing_class=tokenizer,
	reward_funcs=reward_func,
	train_dataset=dataset,
	args=args,
	peft_config=peft_config,
	environment_factory=BudgetRouterGRPOEnv,
	callbacks=[logger],
	)

	print("\nStarting training loop...\n")
	try:
	trainer.train()
	except Exception as exc:
	elapsed = time.time() - t0
	print(f"\n❌ Training loop raised {type(exc).__name__} after {elapsed:.0f}s:")
	print(f" {exc}")
	print("\n=== SMOKE TEST: FAIL ===")
	sys.exit(1)

	elapsed = time.time() - t0

	# Evaluate
	if not logger.steps:
	print("\n❌ No steps were logged — trainer may have exited early.")
	print("=== SMOKE TEST: FAIL ===")
	sys.exit(1)

	last = logger.steps[-1]
	reward_mean = last["reward_mean"]
	reward_std = last["reward_std"]
	loss = last["loss"]

	passed = (
	len(logger.steps) >= 10
	and not math.isnan(reward_mean)
	and not math.isnan(loss)
	and not math.isinf(loss)
	)

	print("\n" + "=" * 62)
	print("SMOKE TEST RESULT")
	print("=" * 62)
	print(f"Steps completed : {len(logger.steps)}/10")
	print(f"reward_mean : {reward_mean:.4f}")
	print(f"reward_std : {reward_std:.4f}")
	print(f"loss : {loss:.4f}")
	print(f"elapsed : {elapsed:.0f}s")
	print()
	if passed:
	print("✅ PASS — Loop is functional. Scale up with Qwen2.5-1.5B + num_generations=8.")
	else:
	print("❌ FAIL — Fix issues above before full training run.")
	print("=" * 62)

	if not passed:
	sys.exit(1)


	if __name__ == "__main__":
	main()