Spaces:

ronitraj
/

vegarl

Running

App Files Files Community

vegarl / train.py

ronitraj

Deploy Space without oversized raw dataset

4fbc241 29 days ago

raw

history blame contribute delete

3.26 kB

	#!/usr/bin/env python3
	"""Train a PPO agent on an InferenceGym task.

	Usage:
	python train.py --task static_workload --steps 50000 --seed 42
	python train.py --task bursty_workload --steps 80000 --seed 42
	python train.py --task adversarial_multitenant --steps 120000 --seed 42
	"""
	from __future__ import annotations

	import argparse
	import os
	import sys
	from pathlib import Path

	sys.path.insert(0, os.path.dirname(os.path.abspath(__file__)))

	import torch # noqa: E402

	from rl.env_wrapper import GymEnvWrapper # noqa: E402
	from rl.policy_network import PolicyNetwork # noqa: E402
	from rl.ppo import PPOTrainer # noqa: E402

	WEIGHTS_DIR = Path(__file__).resolve().parent / "weights"

	TASK_DEFAULTS = {
	"static_workload": {"steps": 50_000, "label": "task1_static"},
	"bursty_workload": {"steps": 80_000, "label": "task2_bursty"},
	"adversarial_multitenant": {"steps": 120_000, "label": "task3_adversarial"},
	}


	def main(argv: list[str] \| None = None) -> int:
	parser = argparse.ArgumentParser(description="Train PPO on InferenceGym")
	parser.add_argument("--task", default="static_workload", choices=list(TASK_DEFAULTS.keys()))
	parser.add_argument("--steps", type=int, default=None, help="Total training steps (default: task-specific)")
	parser.add_argument("--seed", type=int, default=42)
	parser.add_argument("--lr", type=float, default=3e-4)
	parser.add_argument("--rollout", type=int, default=512)
	parser.add_argument("--epochs", type=int, default=4)
	parser.add_argument("--minibatch", type=int, default=64)
	parser.add_argument("--entropy", type=float, default=0.01)
	parser.add_argument("--output", type=str, default=None, help="Output weights path")
	args = parser.parse_args(argv)

	task_id = args.task
	defaults = TASK_DEFAULTS[task_id]
	total_steps = args.steps or defaults["steps"]
	label = defaults["label"]

	WEIGHTS_DIR.mkdir(parents=True, exist_ok=True)
	output_path = args.output or str(WEIGHTS_DIR / f"ppo_{label}.pt")

	print(f"[TRAIN] Task: {task_id}, Steps: {total_steps}, Seed: {args.seed}")
	print(f"[TRAIN] Output: {output_path}")

	# Seed everything
	torch.manual_seed(args.seed)

	env = GymEnvWrapper(task_id=task_id, seed=args.seed, normalize=True, mode="sim")
	policy = PolicyNetwork(obs_dim=env.obs_dim)
	trainer = PPOTrainer(
	env=env,
	policy=policy,
	lr=args.lr,
	rollout_length=args.rollout,
	ppo_epochs=args.epochs,
	minibatch_size=args.minibatch,
	entropy_coef=args.entropy,
	)

	history = trainer.train(
	total_steps=total_steps,
	log_interval=2000,
	checkpoint_interval=10000,
	checkpoint_path=output_path,
	)

	# Save final weights
	trainer.save(output_path)

	# Print summary
	if history:
	final_rewards = [h["mean_reward"] for h in history if h["mean_reward"] != 0.0]
	if final_rewards:
	print(f"\n[SUMMARY] Final mean reward: {final_rewards[-1]:.4f}")
	print(f"[SUMMARY] Best mean reward: {max(final_rewards):.4f}")
	print(f"[SUMMARY] Episodes trained: {history[-1].get('total_steps', 0) // 60}")

	return 0


	if __name__ == "__main__":
	raise SystemExit(main())