chomera / chimera /training /benchmark.py

Upload folder using huggingface_hub

11c11f8 verified 12 days ago

6.36 kB

	from __future__ import annotations

	import copy
	import json
	import os
	import time

	import torch
	from torch.utils.data import DataLoader, Dataset

	from chimera.quantization import BitLinear

	from .common import build_model_from_args
	from .datasets import GrowLengthDataset, build_token_buffer
	from .hyper import (
	GrowLengthScheduler,
	ProgressiveUnfreezer,
	SeedReplayMeZO,
	apply_reservoir_freezing,
	patch_training_loops,
	)


	def run_baseline(model, token_buf, args):
	model.train()
	seq = args.seq_len
	n = token_buf.numel() // (seq + 1)
	chunks = token_buf[: n * (seq + 1)].view(n, seq + 1)

	class _Dataset(Dataset):
	def __len__(self):
	return chunks.size(0)

	def __getitem__(self, i):
	c = chunks[i]
	return {"input_ids": c[:-1], "labels": c[1:]}

	loader = DataLoader(_Dataset(), batch_size=args.batch_size, shuffle=True, num_workers=0, drop_last=True)
	params = [(n, p) for n, p in model.named_parameters() if p.requires_grad]
	eps = 1e-3

	def loss_fn(batch):
	return model(batch["input_ids"], labels=batch["labels"]).loss

	total_toks, total_loss = 0, 0.0
	t0 = time.time()
	di = iter(loader)
	for _ in range(args.max_steps):
	try:
	batch = next(di)
	except StopIteration:
	di = iter(loader)
	batch = next(di)
	seed = int(torch.randint(0, 2**31, (1,)).item())
	gen = torch.Generator(device="cpu")
	gen.manual_seed(seed)
	for _, p in params:
	p.data.add_(torch.randn(p.shape, generator=gen), alpha=eps)
	for m in model.modules():
	if isinstance(m, BitLinear):
	m.invalidate_packed()
	with torch.no_grad():
	lp = float(loss_fn(batch).item())
	gen.manual_seed(seed)
	for _, p in params:
	p.data.add_(torch.randn(p.shape, generator=gen), alpha=-2 * eps)
	for m in model.modules():
	if isinstance(m, BitLinear):
	m.invalidate_packed()
	with torch.no_grad():
	ln = float(loss_fn(batch).item())
	g = (lp - ln) / (2 * eps)
	gen.manual_seed(seed)
	for _, p in params:
	z = torch.randn(p.shape, generator=gen)
	p.data.add_(z, alpha=eps - args.lr * g)
	for m in model.modules():
	if isinstance(m, BitLinear):
	m.invalidate_packed()
	total_toks += batch["input_ids"].numel()
	total_loss += 0.5 * (lp + ln)
	dt = time.time() - t0
	return total_toks / dt, total_loss / args.max_steps, dt


	def run_hyper(model, token_buf, args):
	model.train()
	patch_training_loops(model, num_loops=1)
	if args.reservoir:
	apply_reservoir_freezing(model)
	unfreezer = ProgressiveUnfreezer(model, args.max_steps, args.unfreeze_stages) if args.progressive_unfreeze else None
	stages = [
	(max(8, args.seq_len // 4), 0.30),
	(max(16, args.seq_len // 2), 0.30),
	(args.seq_len, 0.40),
	]
	grow = GrowLengthScheduler(stages, args.max_steps) if args.growlength else None
	cur_seq = stages[0][0] if grow else args.seq_len
	dataset = GrowLengthDataset(token_buf, cur_seq)
	opt = SeedReplayMeZO(model, lr=args.lr * 0.01, eps=args.mezo_eps, weight_decay=0.1, momentum=0.9)

	def loss_fn(batch):
	if args.bf16:
	with torch.autocast("cpu", dtype=torch.bfloat16):
	return model(batch["input_ids"], labels=batch["labels"]).loss
	return model(batch["input_ids"], labels=batch["labels"]).loss

	total_toks, total_loss = 0, 0.0
	t0 = time.time()
	eff_batch = args.batch_size * max(1, args.seq_len // max(1, cur_seq))
	loader = DataLoader(dataset, batch_size=eff_batch, shuffle=True, num_workers=0, drop_last=True)
	di = iter(loader)
	for step in range(args.max_steps):
	if grow:
	ns = grow.get_seq_len(step)
	if ns != cur_seq:
	cur_seq = ns
	dataset.set_seq_len(cur_seq)
	eff_batch = args.batch_size * max(1, args.seq_len // max(1, cur_seq))
	loader = DataLoader(dataset, batch_size=eff_batch, shuffle=True, num_workers=0, drop_last=True)
	di = iter(loader)
	if unfreezer:
	unfreezer.update(step)
	try:
	batch = next(di)
	except StopIteration:
	di = iter(loader)
	batch = next(di)
	loss_val = opt.step(loss_fn, batch)
	total_toks += batch["input_ids"].numel()
	total_loss += loss_val
	dt = time.time() - t0
	return total_toks / dt, total_loss / args.max_steps, dt


	def benchmark_hyper(args):
	print("=" * 65)
	print("CHIMERA 5.3 HYPER v3 — BENCHMARK (full arch, all features)")
	print("=" * 65)
	model_a, cfg = build_model_from_args(args)
	model_b = copy.deepcopy(model_a)
	c = model_a.count_parameters()
	print(f"Model: {c['total']:,} params, {cfg['num_hidden_layers']} layers")
	print(f"Features: looping={model_a.looping_enabled} evolution={model_a.evolution is not None} span={model_a.span_engine is not None}")

	tok_budget = max(500_000, args.max_steps * args.batch_size * (args.seq_len + 1) * 8)
	token_buf = build_token_buffer(args.dataset_name, args.dataset_split, args.text_column, tok_budget, args.cache_dir)
	print(f"Tokens: {token_buf.numel():,}\n")

	print("-" * 65)
	print("BASELINE (randn MeZO, invalidate_packed, loop=2, full evo)")
	print("-" * 65)
	bt, bl, bd = run_baseline(model_a, token_buf, args)
	print(f" -> {bt:,.0f} tok/s loss={bl:.4f} time={bd:.1f}s\n")

	print("-" * 65)
	print("HYPER (seed-replay MeZO, STE path, loop=1, GrowLength, Reservoir)")
	print("-" * 65)
	ht, hl, hd = run_hyper(model_b, token_buf, args)
	print(f" -> {ht:,.0f} tok/s loss={hl:.4f} time={hd:.1f}s\n")

	sp = ht / bt if bt > 0 else float("inf")
	print("=" * 65)
	print(f" Baseline : {bt:>10,.0f} tok/s loss {bl:.4f}")
	print(f" Hyper : {ht:>10,.0f} tok/s loss {hl:.4f}")
	print(f" Speedup : {sp:>10.1f}x")
	print("=" * 65)

	os.makedirs(args.output_dir, exist_ok=True)
	with open(os.path.join(args.output_dir, "benchmark.json"), "w") as f:
	json.dump({"baseline_tps": round(bt), "hyper_tps": round(ht), "speedup": round(sp, 2)}, f, indent=2)