forgeenv source snapshot for training job

a15535e verified 16 days ago

7.61 kB

	"""GRPO trainer for the Repair Agent.

	This wires TRL's GRPOTrainer to ForgeEnvironment via a per-prompt rollout
	function. Each prompt is sampled K times (group size); each sample is
	executed in the env and gets a scalar reward from the visible verifier.

	Usage:
	python -m forgeenv.training.grpo_repair \\
	--base_model unsloth/Qwen2.5-Coder-7B-Instruct-bnb-4bit \\
	--adapter_path artifacts/checkpoints/repair_agent_sft \\
	--output_dir artifacts/checkpoints/repair_agent_grpo \\
	--total_episodes 200 --group_size 4
	"""
	from __future__ import annotations

	import argparse
	import json
	import os
	from pathlib import Path
	from typing import Any, Optional

	from forgeenv.env.forge_environment import ForgeEnvironment
	from forgeenv.roles.drift_generator import BaselineDriftGenerator
	from forgeenv.roles.prompts import (
	DRIFT_GENERATOR_SYSTEM_PROMPT,
	REPAIR_AGENT_SYSTEM_PROMPT,
	render_drift_generator_prompt,
	render_repair_agent_prompt,
	)
	from forgeenv.roles.repair_agent import extract_diff
	from forgeenv.training.rollout import rollout_one_episode


	def _build_repair_prompt(env: ForgeEnvironment) -> dict[str, Any]:
	"""Reset env, run baseline drift generator, return a repair-prompt
	dict ready to feed to TRL's GRPOTrainer."""
	drift_gen = BaselineDriftGenerator()

	obs = env.reset(difficulty="easy")
	drift_user = render_drift_generator_prompt(
	script=obs.script_content,
	target_category=obs.target_category,
	library_versions=obs.library_versions,
	)
	spec = drift_gen.propose(
	target_category=obs.target_category, script=obs.script_content
	)
	from forgeenv.env.actions import BreakageAction, ForgeAction

	obs2 = env.step(
	ForgeAction(
	breakage=BreakageAction(
	primitive_type=spec["primitive_type"], params=spec["params"]
	)
	)
	)

	user = render_repair_agent_prompt(
	broken_script=obs2.script_content,
	error_trace=obs2.error_trace or "",
	library_versions=obs2.library_versions,
	target_category=obs2.target_category,
	)
	return {
	"prompt": [
	{"role": "system", "content": REPAIR_AGENT_SYSTEM_PROMPT},
	{"role": "user", "content": user},
	],
	"task_id": obs.task_id,
	"primitive_type": spec["primitive_type"],
	"broken_script": obs2.script_content,
	"drift_user_prompt": drift_user,
	}


	def reward_repair_function(
	completions: list, prompts: list = None, **kwargs
	) -> list[float]:
	"""TRL-compatible reward fn: scores a batch of completions against
	a (broken_script, breakage_spec) tuple stored on each example."""
	from forgeenv.env.actions import RepairAction, ForgeAction
	from forgeenv.env.diff_utils import apply_unified_diff
	from forgeenv.sandbox.simulation_mode import SimulationExecutor
	from forgeenv.tasks.task_sampler import TaskSampler
	from forgeenv.verifier.visible_verifier import compute_visible_reward

	sampler = TaskSampler()
	executor = SimulationExecutor()
	task_ids = kwargs.get("task_id", [None] * len(completions))
	broken_scripts = kwargs.get("broken_script", [""] * len(completions))

	rewards: list[float] = []
	for completion, task_id, broken in zip(completions, task_ids, broken_scripts):
	if isinstance(completion, list): # chat format
	completion = completion[-1]["content"]
	diff = extract_diff(completion or "")
	repaired = apply_unified_diff(broken, diff) if diff else broken
	task = sampler.get_by_id(task_id) if task_id else None
	if task is None and sampler.tasks:
	task = sampler.tasks[0]
	result = executor.execute(repaired, task)
	result.script_content = repaired
	reward, _ = compute_visible_reward(result, task)
	rewards.append(float(reward))
	return rewards


	def run_grpo(
	base_model: str,
	adapter_path: Optional[str],
	output_dir: str,
	total_episodes: int = 200,
	group_size: int = 4,
	learning_rate: float = 5e-6,
	seed: int = 0,
	use_unsloth: Optional[bool] = None,
	) -> None:
	"""Launch GRPO training (lazy imports to keep this module importable on CPU)."""

	if use_unsloth is None:
	use_unsloth = os.environ.get("FORGEENV_USE_UNSLOTH", "1") == "1"

	if not use_unsloth:
	# Dry-run mode: just exercise the prompt building loop and dump rewards.
	env = ForgeEnvironment(seed=seed)
	rewards = []
	for ep in range(total_episodes):
	result = rollout_one_episode(env)
	rewards.append(result.visible_reward)
	if ep % max(1, total_episodes // 10) == 0:
	print(
	f"[grpo dry-run] ep={ep} reward={result.visible_reward:.3f} "
	f"primitive={result.primitive_type}"
	)
	Path(output_dir).mkdir(parents=True, exist_ok=True)
	(Path(output_dir) / "dry_run_rewards.json").write_text(
	json.dumps(rewards, indent=2)
	)
	print(f"[grpo dry-run] wrote {len(rewards)} rewards to {output_dir}")
	return

	from datasets import Dataset
	from trl import GRPOConfig, GRPOTrainer
	from unsloth import FastLanguageModel
	from peft import PeftModel

	model, tokenizer = FastLanguageModel.from_pretrained(
	model_name=base_model,
	max_seq_length=4096,
	dtype=None,
	load_in_4bit=True,
	)
	if adapter_path:
	model = PeftModel.from_pretrained(model, adapter_path, is_trainable=True)

	env = ForgeEnvironment(seed=seed)
	examples = [_build_repair_prompt(env) for _ in range(total_episodes)]
	dataset = Dataset.from_list(examples)

	grpo_config = GRPOConfig(
	output_dir=output_dir,
	per_device_train_batch_size=1,
	gradient_accumulation_steps=4,
	learning_rate=learning_rate,
	max_steps=total_episodes,
	num_generations=group_size,
	max_completion_length=1024,
	logging_steps=5,
	save_steps=max(50, total_episodes // 4),
	save_total_limit=2,
	seed=seed,
	report_to="none",
	beta=0.04,
	)
	trainer = GRPOTrainer(
	model=model,
	processing_class=tokenizer,
	args=grpo_config,
	train_dataset=dataset,
	reward_funcs=[reward_repair_function],
	)
	trainer.train()
	Path(output_dir).mkdir(parents=True, exist_ok=True)
	model.save_pretrained(output_dir)
	tokenizer.save_pretrained(output_dir)
	print(f"[grpo] saved adapter to {output_dir}")


	def _parse_args() -> argparse.Namespace:
	parser = argparse.ArgumentParser(description=__doc__)
	parser.add_argument("--base_model", default="unsloth/Qwen2.5-Coder-7B-Instruct-bnb-4bit")
	parser.add_argument("--adapter_path", default=None)
	parser.add_argument("--output_dir", required=True)
	parser.add_argument("--total_episodes", type=int, default=200)
	parser.add_argument("--group_size", type=int, default=4)
	parser.add_argument("--learning_rate", type=float, default=5e-6)
	parser.add_argument("--seed", type=int, default=0)
	parser.add_argument("--dry_run", action="store_true")
	return parser.parse_args()


	if __name__ == "__main__":
	args = _parse_args()
	run_grpo(
	base_model=args.base_model,
	adapter_path=args.adapter_path,
	output_dir=args.output_dir,
	total_episodes=args.total_episodes,
	group_size=args.group_size,
	learning_rate=args.learning_rate,
	seed=args.seed,
	use_unsloth=not args.dry_run,
	)