ViL-DLM-0.6B / code /train_production.py

Add timestep-aware sparse KD weighting

25e4efd 13 days ago

59.4 kB

	"""
	ViL-DLM production training script.

	Stages:
	1 - projector-only alignment on LLaVA-Pretrain
	2 - full-model finetune on The Cauldron
	3a - offline teacher candidate-bank preparation with Gemma 4 E2B-it
	3b - sparse cross-tokenizer distillation training using cached teacher targets
	"""

	import argparse
	import hashlib
	import json
	import math
	import os
	import time
	import zipfile
	from collections import defaultdict
	from dataclasses import dataclass
	from io import BytesIO
	from pathlib import Path
	from typing import Dict, Iterable, List, Optional, Sequence, Tuple

	import numpy as np
	import torch
	import torch.nn as nn
	import torch.nn.functional as F
	from datasets import Dataset as HFDataset
	from datasets import concatenate_datasets, load_dataset
	from datasets import Features, Image as HFImage
	from datasets.features import Sequence as HFSequence
	from huggingface_hub import HfApi, snapshot_download
	from PIL import Image
	from torch.optim import AdamW
	from torch.optim.lr_scheduler import CosineAnnealingLR
	from torch.utils.data import DataLoader, Dataset
	from transformers import (
	AutoModelForImageTextToText,
	AutoModelForMaskedLM,
	AutoProcessor,
	AutoTokenizer,
	)

	try:
	import trackio
	except Exception:
	trackio = None

	from vision_xlstm import (
	VisionProjector as UpstreamVisionProjector,
	VisionXLSTM as UpstreamVisionXLSTM,
	)


	DEFAULT_CAULDRON_CONFIGS = [
	"ai2d",
	"vqav2",
	"aokvqa",
	"textvqa",
	"docvqa",
	"chartqa",
	"textcaps",
	"screen2words",
	]

	DEFAULT_CAULDRON_GATE_CONFIGS = [
	"ai2d",
	"aokvqa",
	]


	@dataclass
	class ViLConfig:
	vision_backbone: str = "vil2-small"
	pretrained: bool = True
	img_size: int = 224
	patch_size: int = 16
	in_channels: int = 3
	dim: int = 384
	depth: int = 24
	conv_kernel_size: int = 3
	bidirectional: bool = True
	dropout: float = 0.0

	@property
	def num_patches(self) -> int:
	return (self.img_size // self.patch_size) ** 2


	@dataclass
	class ProjConfig:
	vil_dim: int = 384
	lm_dim: int = 1024
	hidden_mult: int = 2
	num_layers: int = 2
	dropout: float = 0.0


	class _TrackioShim:
	def __init__(self) -> None:
	self.enabled = False

	def init(self, name: str, project: str = "vil-dlm") -> None:
	if trackio is None:
	print("Trackio disabled: package not installed in the active environment")
	self.enabled = False
	return
	try:
	trackio.init(name=name, project=project)
	self.enabled = True
	except Exception as exc:
	self.enabled = False
	print(f"Trackio disabled: {exc}")

	def log(self, payload: dict) -> None:
	if not self.enabled:
	return
	try:
	trackio.log(payload)
	except Exception as exc:
	self.enabled = False
	print(f"Trackio logging disabled after error: {exc}")


	class MDLMScheduler:
	def __init__(self, mask_token_id: int) -> None:
	self.mask_token_id = mask_token_id

	def add_noise(
	self,
	input_ids: torch.Tensor,
	t: torch.Tensor,
	eligible_mask: Optional[torch.Tensor] = None,
	force_mask: Optional[torch.Tensor] = None,
	) -> Tuple[torch.Tensor, torch.Tensor]:
	batch, length = input_ids.shape
	mask_ratio = 1.0 - torch.cos(t * math.pi / 2)
	mask_ratio = mask_ratio.unsqueeze(1).expand(batch, length)
	mask = torch.rand(batch, length, device=input_ids.device) < mask_ratio
	if eligible_mask is not None:
	eligible_mask = eligible_mask.bool()
	mask = mask & eligible_mask
	if force_mask is not None:
	mask = mask \| (force_mask.bool() & eligible_mask)
	missing_mask = (mask.sum(dim=1) == 0) & (eligible_mask.sum(dim=1) > 0)
	for batch_idx in torch.nonzero(missing_mask, as_tuple=False).flatten():
	eligible_positions = torch.nonzero(eligible_mask[batch_idx], as_tuple=False).flatten()
	chosen = eligible_positions[torch.randint(eligible_positions.numel(), (1,), device=input_ids.device)]
	mask[batch_idx, chosen] = True
	elif force_mask is not None:
	mask = mask \| force_mask.bool()
	noisy_ids = input_ids.clone()
	noisy_ids[mask] = self.mask_token_id
	return noisy_ids, mask

	def sample_timesteps(self, batch_size: int, device: torch.device) -> torch.Tensor:
	return torch.rand(batch_size, device=device)


	class ViLDLM(nn.Module):
	def __init__(self, vil_config: ViLConfig, proj_config: ProjConfig, lm_path: str) -> None:
	super().__init__()
	self.vil_config = vil_config
	self.vision_encoder = UpstreamVisionXLSTM(vil_config)
	self.projector = UpstreamVisionProjector(proj_config)
	self.lm = AutoModelForMaskedLM.from_pretrained(
	lm_path,
	trust_remote_code=True,
	torch_dtype=torch.bfloat16,
	)
	self.tokenizer = AutoTokenizer.from_pretrained(lm_path, trust_remote_code=True)
	if self.tokenizer.pad_token_id is None:
	self.tokenizer.pad_token = self.tokenizer.eos_token
	self.scheduler = MDLMScheduler(mask_token_id=self.tokenizer.pad_token_id)

	@property
	def num_patches(self) -> int:
	return self.vil_config.num_patches

	def prepare_multimodal_inputs(
	self,
	pixel_values: torch.Tensor,
	input_ids: torch.Tensor,
	attention_mask: torch.Tensor,
	) -> Tuple[torch.Tensor, torch.Tensor]:
	vision_features = self.vision_encoder.forward_features(pixel_values)
	visual_tokens = self.projector(vision_features)
	text_embeds = self.lm.model.embed_tokens(input_ids)
	visual_tokens = visual_tokens.to(dtype=text_embeds.dtype)
	inputs_embeds = torch.cat([visual_tokens, text_embeds], dim=1)
	vis_mask = torch.ones(
	pixel_values.shape[0],
	self.num_patches,
	device=attention_mask.device,
	dtype=attention_mask.dtype,
	)
	full_attention_mask = torch.cat([vis_mask, attention_mask], dim=1)
	return inputs_embeds, full_attention_mask

	def predict_clean_logits(
	self,
	pixel_values: torch.Tensor,
	input_ids: torch.Tensor,
	attention_mask: torch.Tensor,
	) -> torch.Tensor:
	inputs_embeds, full_attention_mask = self.prepare_multimodal_inputs(
	pixel_values=pixel_values,
	input_ids=input_ids,
	attention_mask=attention_mask,
	)
	outputs = self.lm(inputs_embeds=inputs_embeds, attention_mask=full_attention_mask)
	return outputs.logits[:, self.num_patches :, :]

	def forward(
	self,
	pixel_values: torch.Tensor,
	input_ids: torch.Tensor,
	attention_mask: torch.Tensor,
	labels: Optional[torch.Tensor] = None,
	loss_mask: Optional[torch.Tensor] = None,
	force_mask: Optional[torch.Tensor] = None,
	) -> Dict[str, torch.Tensor]:
	batch_size, seq_len = input_ids.shape
	device = input_ids.device
	if labels is None:
	labels = input_ids.clone()
	if loss_mask is None:
	loss_mask = attention_mask

	t = self.scheduler.sample_timesteps(batch_size, device)
	eligible_mask = (loss_mask > 0) & (attention_mask > 0)
	noisy_ids, noise_mask = self.scheduler.add_noise(
	input_ids,
	t,
	eligible_mask=eligible_mask,
	force_mask=force_mask,
	)
	inputs_embeds, full_attention_mask = self.prepare_multimodal_inputs(
	pixel_values=pixel_values,
	input_ids=noisy_ids,
	attention_mask=attention_mask,
	)
	outputs = self.lm(inputs_embeds=inputs_embeds, attention_mask=full_attention_mask)
	text_logits = outputs.logits[:, self.num_patches :, :]

	active_mask = noise_mask.float() * eligible_mask.float()
	if active_mask.sum() == 0:
	loss = torch.tensor(0.0, device=device, requires_grad=True)
	else:
	logits_flat = text_logits.reshape(-1, text_logits.shape[-1])
	labels_flat = labels.reshape(-1)
	per_token = F.cross_entropy(logits_flat, labels_flat, reduction="none").reshape(batch_size, seq_len)
	loss = (per_token * active_mask).sum() / active_mask.sum()

	return {
	"loss": loss,
	"logits": text_logits,
	"noise_mask": noise_mask,
	"t": t,
	}

	def freeze_vision(self) -> None:
	for param in self.vision_encoder.parameters():
	param.requires_grad = False

	def freeze_lm(self) -> None:
	for param in self.lm.parameters():
	param.requires_grad = False

	def unfreeze_all(self) -> None:
	for param in self.parameters():
	param.requires_grad = True

	def count_params(self) -> Dict[str, int]:
	vil = sum(p.numel() for p in self.vision_encoder.parameters())
	proj = sum(p.numel() for p in self.projector.parameters())
	lm = sum(p.numel() for p in self.lm.parameters())
	trainable = sum(p.numel() for p in self.parameters() if p.requires_grad)
	return {"vil": vil, "proj": proj, "lm": lm, "total": vil + proj + lm, "trainable": trainable}

	def save_checkpoint(self, save_dir: Path, include_lm: bool) -> None:
	save_dir.mkdir(parents=True, exist_ok=True)
	torch.save(self.vision_encoder.state_dict(), save_dir / "vision_encoder.pt")
	torch.save(self.projector.state_dict(), save_dir / "projector.pt")
	if include_lm:
	self.lm.save_pretrained(save_dir / "diffusion_lm")
	self.tokenizer.save_pretrained(save_dir / "diffusion_lm")

	def load_checkpoint(self, checkpoint_dir: Path, include_lm: bool) -> None:
	vision_path = checkpoint_dir / "vision_encoder.pt"
	projector_path = checkpoint_dir / "projector.pt"
	if vision_path.exists():
	self.vision_encoder.load_state_dict(torch.load(vision_path, map_location="cpu"))
	if projector_path.exists():
	self.projector.load_state_dict(torch.load(projector_path, map_location="cpu"))
	if include_lm:
	diffusion_dir = checkpoint_dir / "diffusion_lm"
	if diffusion_dir.exists():
	self.lm = AutoModelForMaskedLM.from_pretrained(
	diffusion_dir,
	trust_remote_code=True,
	torch_dtype=torch.bfloat16,
	)
	self.tokenizer = AutoTokenizer.from_pretrained(diffusion_dir, trust_remote_code=True)
	if self.tokenizer.pad_token_id is None:
	self.tokenizer.pad_token = self.tokenizer.eos_token
	self.scheduler = MDLMScheduler(mask_token_id=self.tokenizer.pad_token_id)


	def ensure_hf_cache_root() -> None:
	os.environ.setdefault("HF_HOME", "/teamspace/studios/this_studio/.cache/huggingface")


	def patch_diffusion_modeling_file(lm_path: str) -> None:
	modeling_file = os.path.join(lm_path, "modeling_qwen3.py")
	with open(modeling_file, "r", encoding="utf-8") as handle:
	content = handle.read()
	content = content.replace(
	'if __name__ == "__main__":\n import dllm',
	'if __name__ == "__main__":\n pass\n # import dllm',
	)
	content = content.replace(
	"attention_mask=causal_mask_mapping[decoder_layer.attention_type]",
	'attention_mask=causal_mask_mapping.get(getattr(decoder_layer, "attention_type", "full_attention"), causal_mask_mapping.get("full_attention"))',
	)
	with open(modeling_file, "w", encoding="utf-8") as handle:
	handle.write(content)


	def download_student_backbone() -> str:
	print("Downloading dLLM Qwen3-0.6B diffusion model...")
	lm_path = snapshot_download("dllm-hub/Qwen3-0.6B-diffusion-mdlm-v0.1")
	patch_diffusion_modeling_file(lm_path)
	print(f"Model downloaded to {lm_path}")
	return lm_path


	def parse_dataset_configs(dataset_configs: Optional[str]) -> List[str]:
	if dataset_configs:
	return [item.strip() for item in dataset_configs.split(",") if item.strip()]
	return list(DEFAULT_CAULDRON_CONFIGS)


	def resolve_cauldron_configs(args: argparse.Namespace) -> List[str]:
	configs = parse_dataset_configs(args.dataset_configs)
	default_config_string = ",".join(DEFAULT_CAULDRON_CONFIGS)
	if args.dry_run_batches and args.dataset_configs == default_config_string:
	print(
	"Dry-run mode detected; using the cheap Stage 2 gate config set "
	f"{DEFAULT_CAULDRON_GATE_CONFIGS} instead of the full production mix."
	)
	return list(DEFAULT_CAULDRON_GATE_CONFIGS)
	return configs


	def stable_text_hash(*parts: str) -> str:
	joined = "\n".join(parts)
	return hashlib.sha1(joined.encode("utf-8")).hexdigest()


	def build_prompt_prefix(prompt_text: str) -> str:
	return f"User: {prompt_text.strip()}\nAssistant:"


	def tokenize_prompt_and_target(
	tokenizer: AutoTokenizer,
	prompt_text: str,
	target_text: str,
	max_length: int,
	) -> Tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:
	prefix_text = build_prompt_prefix(prompt_text)
	prefix_ids = tokenizer(prefix_text, add_special_tokens=True)["input_ids"]
	target_ids = tokenizer(" " + target_text.strip(), add_special_tokens=False)["input_ids"]
	if not target_ids:
	target_ids = tokenizer(" " + "N/A", add_special_tokens=False)["input_ids"][:1]

	max_prefix_len = max_length - 1
	if len(prefix_ids) > max_prefix_len:
	prefix_ids = prefix_ids[:max_prefix_len]

	remaining = max_length - len(prefix_ids)
	if remaining <= 0:
	prefix_ids = prefix_ids[: max_length - 1]
	remaining = 1
	target_ids = target_ids[:remaining]
	if not target_ids:
	prefix_ids = prefix_ids[: max_length - 1]
	target_ids = tokenizer(" " + target_text.strip(), add_special_tokens=False)["input_ids"][:1]

	input_ids = prefix_ids + target_ids
	loss_mask = [0] * len(prefix_ids) + [1] * len(target_ids)
	attention_mask = [1] * len(input_ids)
	labels = list(input_ids)

	pad_token_id = tokenizer.pad_token_id
	if pad_token_id is None:
	pad_token_id = tokenizer.eos_token_id

	pad_len = max_length - len(input_ids)
	if pad_len > 0:
	input_ids = input_ids + [pad_token_id] * pad_len
	attention_mask = attention_mask + [0] * pad_len
	labels = labels + [pad_token_id] * pad_len
	loss_mask = loss_mask + [0] * pad_len

	return (
	torch.tensor(input_ids, dtype=torch.long),
	torch.tensor(attention_mask, dtype=torch.long),
	torch.tensor(labels, dtype=torch.long),
	torch.tensor(loss_mask, dtype=torch.float32),
	)


	def preprocess_image_for_student(img: object, img_size: int) -> Tuple[torch.Tensor, Image.Image]:
	if isinstance(img, str):
	img = Image.open(img).convert("RGB")
	elif isinstance(img, dict) and "zip_path" in img and "member" in img:
	with zipfile.ZipFile(img["zip_path"], "r") as archive:
	with archive.open(img["member"], "r") as member_file:
	img = Image.open(member_file).convert("RGB")
	elif isinstance(img, dict) and img.get("bytes") is not None:
	img = Image.open(BytesIO(img["bytes"])).convert("RGB")
	elif isinstance(img, dict) and img.get("path") and os.path.exists(img["path"]):
	img = Image.open(img["path"]).convert("RGB")
	elif isinstance(img, Image.Image):
	img = img.convert("RGB")
	else:
	raise ValueError(f"Unsupported image payload type: {type(img)!r}")

	pil_image = img
	resized = pil_image.resize((img_size, img_size), Image.BICUBIC)
	arr = np.array(resized).astype(np.float32) / 255.0
	tensor = torch.from_numpy(arr).permute(2, 0, 1)
	mean = torch.tensor([0.485, 0.456, 0.406]).view(3, 1, 1)
	std = torch.tensor([0.229, 0.224, 0.225]).view(3, 1, 1)
	tensor = (tensor - mean) / std
	return tensor, pil_image


	def is_usable_image_payload(img: object) -> bool:
	if isinstance(img, Image.Image):
	return True
	if isinstance(img, str):
	return os.path.exists(img)
	if isinstance(img, dict):
	if img.get("zip_path") and img.get("member"):
	return os.path.exists(img["zip_path"])
	if img.get("bytes") is not None:
	return True
	if img.get("path"):
	return os.path.exists(img["path"])
	return False


	class NormalizedVisionLanguageDataset(Dataset):
	def __init__(
	self,
	records: HFDataset,
	tokenizer: AutoTokenizer,
	max_length: int,
	img_size: int,
	) -> None:
	self.records = records
	self.tokenizer = tokenizer
	self.max_length = max_length
	self.img_size = img_size

	def __len__(self) -> int:
	return len(self.records)

	def __getitem__(self, idx: int) -> Dict[str, object]:
	sample = self.records[int(idx)]
	pixel_values, pil_image = preprocess_image_for_student(sample["image"], self.img_size)
	input_ids, attention_mask, labels, loss_mask = tokenize_prompt_and_target(
	tokenizer=self.tokenizer,
	prompt_text=sample["prompt_text"],
	target_text=sample["target_text"],
	max_length=self.max_length,
	)
	return {
	"pixel_values": pixel_values,
	"input_ids": input_ids,
	"attention_mask": attention_mask,
	"labels": labels,
	"loss_mask": loss_mask,
	"sample_id": sample["sample_id"],
	"prompt_text": sample["prompt_text"],
	"target_text": sample["target_text"],
	"source_config": sample.get("source_config", "unknown"),
	"pil_image": pil_image,
	}


	def build_llava_records(max_samples: Optional[int]) -> HFDataset:
	print("Loading LLaVA-Pretrain dataset...")
	dataset_root = None
	images_zip_path = None
	zip_members = None
	try:
	data = load_dataset("liuhaotian/LLaVA-Pretrain", split="train")
	except Exception as exc:
	print(f"Primary dataset loader failed ({exc}). Falling back to direct JSON loading...")
	dataset_root = snapshot_download(
	"liuhaotian/LLaVA-Pretrain",
	repo_type="dataset",
	allow_patterns=["blip_laion_cc_sbu_558k.json", "images.zip"],
	)
	json_path = os.path.join(dataset_root, "blip_laion_cc_sbu_558k.json")
	images_zip_path = os.path.join(dataset_root, "images.zip")
	if os.path.exists(images_zip_path):
	with zipfile.ZipFile(images_zip_path, "r") as archive:
	zip_members = set(archive.namelist())
	data = load_dataset("json", data_files={"train": json_path}, split="train")
	if max_samples:
	data = data.select(range(min(max_samples, len(data))))

	stats = defaultdict(int)

	def normalize(sample: Dict[str, object], idx: int) -> Optional[Dict[str, object]]:
	text = ""
	if "conversations" in sample:
	parts = []
	for turn in sample["conversations"]:
	val = turn.get("value", "").replace("<image>\n", "").replace("<image>", "").strip()
	if val:
	parts.append(val)
	text = " ".join(parts)
	elif sample.get("blip_caption"):
	text = sample["blip_caption"].strip()
	if not text:
	text = "Describe this image."

	image_obj = sample.get("image")
	if image_obj is None:
	stats["missing_image_ref"] += 1
	return None
	if isinstance(image_obj, str) and dataset_root and not os.path.isabs(image_obj):
	candidate_paths = [
	image_obj,
	os.path.join(dataset_root, image_obj),
	os.path.join(dataset_root, "images", image_obj),
	]
	resolved_path = next((path for path in candidate_paths if os.path.exists(path)), None)
	if resolved_path:
	image_obj = resolved_path
	elif images_zip_path and os.path.exists(images_zip_path) and zip_members:
	member_name = None
	if image_obj in zip_members:
	member_name = image_obj
	elif f"images/{image_obj}" in zip_members:
	member_name = f"images/{image_obj}"
	if member_name is None:
	stats["missing_backing_image"] += 1
	return None
	image_obj = {
	"zip_path": images_zip_path,
	"member": member_name,
	}
	else:
	stats["missing_backing_image"] += 1
	return None

	stats["kept"] += 1
	return {
	"image": image_obj,
	"prompt_text": "Describe this image.",
	"target_text": text,
	"sample_id": f"llava-pretrain:{sample.get('id', idx)}",
	"source_config": "llava_pretrain",
	}

	records = [record for i in range(len(data)) if (record := normalize(data[i], i)) is not None]
	normalized = HFDataset.from_list(records)
	print(
	f"Loaded {len(normalized)} LLaVA samples "
	f"(kept={stats['kept']}, missing_image_ref={stats['missing_image_ref']}, "
	f"missing_backing_image={stats['missing_backing_image']})"
	)
	return normalized


	def disable_image_decoding(feature: object) -> object:
	if isinstance(feature, HFImage):
	return HFImage(decode=False)
	if isinstance(feature, HFSequence):
	return HFSequence(feature=disable_image_decoding(feature.feature), length=feature.length)
	if isinstance(feature, Features):
	return Features({key: disable_image_decoding(value) for key, value in feature.items()})
	if isinstance(feature, dict):
	return {key: disable_image_decoding(value) for key, value in feature.items()}
	if isinstance(feature, list):
	return [disable_image_decoding(value) for value in feature]
	return feature


	def build_cauldron_records(
	configs: Sequence[str],
	max_samples: Optional[int],
	raw_row_limit: Optional[int] = None,
	) -> Tuple[HFDataset, Dict[str, Dict[str, int]]]:
	normalized_configs: List[HFDataset] = []
	skip_stats: Dict[str, Dict[str, int]] = {}
	per_config_limit = None
	if max_samples:
	per_config_limit = max(1, max_samples // max(len(configs), 1))

	for config_name in configs:
	print(f"Loading The Cauldron config: {config_name}")
	ds = load_dataset("HuggingFaceM4/the_cauldron", config_name, split="train")
	if raw_row_limit is not None:
	ds = ds.select(range(min(raw_row_limit, len(ds))))
	if "images" in ds.features:
	ds = ds.cast_column("images", disable_image_decoding(ds.features["images"]))
	if "image" in ds.features:
	ds = ds.cast_column("image", disable_image_decoding(ds.features["image"]))
	stats = defaultdict(int)

	def explode(batch: Dict[str, List[object]], indices: List[int]) -> Dict[str, List[object]]:
	output = {
	"image": [],
	"prompt_text": [],
	"target_text": [],
	"sample_id": [],
	"source_config": [],
	}
	batch_images = batch.get("images")
	batch_single_image = batch.get("image")
	batch_texts = batch.get("texts") or batch.get("conversations")
	for local_idx, row_idx in enumerate(indices):
	if batch_images is not None:
	images = batch_images[local_idx]
	elif batch_single_image is not None:
	images = batch_single_image[local_idx]
	else:
	stats["missing_image_column"] += 1
	continue

	if batch_texts is None:
	stats["missing_text_column"] += 1
	continue
	texts = batch_texts[local_idx]

	if images is None:
	images = []
	elif not isinstance(images, list):
	images = [images]
	if texts is None:
	texts = []
	elif isinstance(texts, dict):
	texts = [texts]

	if not images or len(images) != 1:
	stats["multi_or_missing_image"] += 1
	continue
	image_payload = images[0]
	if not is_usable_image_payload(image_payload):
	stats["unusable_image_ref"] += 1
	continue
	if not texts:
	stats["missing_turns"] += 1
	continue
	for turn_idx, turn in enumerate(texts):
	if not isinstance(turn, dict):
	stats["unsupported_turn_type"] += 1
	continue
	user_text = (
	turn.get("user")
	or turn.get("question")
	or turn.get("prompt")
	or turn.get("input")
	or ""
	).strip()
	assistant_text = (
	turn.get("assistant")
	or turn.get("answer")
	or turn.get("response")
	or turn.get("output")
	or ""
	).strip()
	if not user_text or not assistant_text:
	stats["missing_user_or_assistant"] += 1
	continue
	output["image"].append(image_payload)
	output["prompt_text"].append(user_text)
	output["target_text"].append(assistant_text)
	output["sample_id"].append(f"{config_name}:{row_idx}:{turn_idx}")
	output["source_config"].append(config_name)
	stats["kept"] += 1
	return output

	exploded = ds.map(
	explode,
	batched=True,
	with_indices=True,
	remove_columns=ds.column_names,
	desc=f"Normalizing {config_name}",
	)
	if per_config_limit is not None:
	exploded = exploded.select(range(min(per_config_limit, len(exploded))))
	normalized_configs.append(exploded)
	stats["kept"] = len(exploded)
	skip_stats[config_name] = dict(stats)
	print(f"{config_name}: kept={stats['kept']} skipped={sum(v for k, v in stats.items() if k != 'kept')}")

	if not normalized_configs:
	raise RuntimeError("No valid The Cauldron configs were loaded.")

	combined = concatenate_datasets(normalized_configs)
	if max_samples:
	combined = combined.select(range(min(max_samples, len(combined))))
	print(f"Loaded {len(combined)} normalized The Cauldron samples")
	return combined, skip_stats


	def collate_vision_language(batch: List[Dict[str, object]]) -> Dict[str, object]:
	return {
	"pixel_values": torch.stack([sample["pixel_values"] for sample in batch]),
	"input_ids": torch.stack([sample["input_ids"] for sample in batch]),
	"attention_mask": torch.stack([sample["attention_mask"] for sample in batch]),
	"labels": torch.stack([sample["labels"] for sample in batch]),
	"loss_mask": torch.stack([sample["loss_mask"] for sample in batch]),
	"sample_id": [sample["sample_id"] for sample in batch],
	"prompt_text": [sample["prompt_text"] for sample in batch],
	"target_text": [sample["target_text"] for sample in batch],
	"source_config": [sample["source_config"] for sample in batch],
	"pil_image": [sample["pil_image"] for sample in batch],
	}


	def create_stage_dataset(stage: str, tokenizer: AutoTokenizer, args: argparse.Namespace) -> Tuple[NormalizedVisionLanguageDataset, Dict[str, Dict[str, int]]]:
	if stage == "1":
	return NormalizedVisionLanguageDataset(
	records=build_llava_records(args.max_samples),
	tokenizer=tokenizer,
	max_length=args.max_length,
	img_size=224,
	), {}

	configs = resolve_cauldron_configs(args)
	raw_row_limit = None
	if args.dry_run_batches:
	raw_row_limit = max(32, args.batch_size * args.dry_run_batches * 8)
	records, skip_stats = build_cauldron_records(configs, args.max_samples, raw_row_limit=raw_row_limit)
	return NormalizedVisionLanguageDataset(
	records=records,
	tokenizer=tokenizer,
	max_length=args.max_length,
	img_size=224,
	), skip_stats


	def build_dataloader(
	dataset: Dataset,
	batch_size: int,
	shuffle: bool,
	num_workers: int,
	persistent_workers: bool,
	) -> DataLoader:
	return DataLoader(
	dataset,
	batch_size=batch_size,
	shuffle=shuffle,
	num_workers=num_workers,
	pin_memory=torch.cuda.is_available(),
	persistent_workers=persistent_workers and num_workers > 0,
	drop_last=False,
	collate_fn=collate_vision_language,
	)


	def print_device_info(device: torch.device) -> None:
	print(f"Device: {device}")
	if torch.cuda.is_available():
	print(f"GPU: {torch.cuda.get_device_name(0)}")
	print(f"VRAM: {torch.cuda.get_device_properties(0).total_memory / 1e9:.1f} GB")
	print(f"torch.version.cuda: {torch.version.cuda}")


	def ensure_runtime_requirements(args: argparse.Namespace) -> None:
	if args.require_cuda and not torch.cuda.is_available():
	raise RuntimeError("CUDA is required for this run but torch.cuda.is_available() is False.")
	if args.stage in {"2", "3a", "3b"} and not parse_dataset_configs(args.dataset_configs):
	raise RuntimeError("Stage 2/3 requires at least one The Cauldron config.")
	if args.stage in {"3a", "3b"} and not args.teacher_cache_dir:
	raise RuntimeError("Stage 3 requires --teacher_cache_dir.")
	if args.stage in {"3a", "3b"} and not args.resume_from:
	raise RuntimeError("Stage 3 requires --resume_from pointing to a Stage 2 checkpoint.")
	if args.stage == "3a":
	try:
	import bitsandbytes # noqa: F401
	except ImportError as exc:
	raise RuntimeError("Stage 3a requires bitsandbytes in the active environment.") from exc


	def maybe_resume_model(model: ViLDLM, args: argparse.Namespace) -> None:
	if not args.resume_from:
	return
	checkpoint_dir = Path(args.resume_from)
	if not checkpoint_dir.exists():
	raise FileNotFoundError(f"Checkpoint directory not found: {checkpoint_dir}")
	include_lm = args.stage in {"2", "3a", "3b"}
	print(f"Resuming from checkpoint: {checkpoint_dir}")
	model.load_checkpoint(checkpoint_dir, include_lm=include_lm)


	def get_optimizer(model: ViLDLM, stage: str) -> AdamW:
	if stage == "1":
	groups = [
	{
	"params": [p for p in model.projector.parameters() if p.requires_grad],
	"lr": 1e-3,
	}
	]
	else:
	groups = [
	{
	"params": [p for p in model.vision_encoder.parameters() if p.requires_grad],
	"lr": 2e-6,
	},
	{
	"params": [p for p in model.projector.parameters() if p.requires_grad],
	"lr": 1e-5,
	},
	{
	"params": [p for p in model.lm.parameters() if p.requires_grad],
	"lr": 1e-5,
	},
	]
	groups = [group for group in groups if group["params"]]
	return AdamW(groups, weight_decay=0.05, betas=(0.9, 0.999))


	def setup_model_for_stage(model: ViLDLM, stage: str) -> None:
	if stage == "1":
	print("\n=== STAGE 1: Projector-only alignment ===")
	model.freeze_vision()
	model.freeze_lm()
	elif stage in {"2", "3b"}:
	label = "Full finetune" if stage == "2" else "Sparse KD finetune"
	print(f"\n=== STAGE {stage.upper()}: {label} ===")
	model.unfreeze_all()
	elif stage == "3a":
	print("\n=== STAGE 3A: Teacher candidate-bank preparation ===")
	model.unfreeze_all()
	for param in model.parameters():
	param.requires_grad = False
	else:
	raise ValueError(f"Unsupported stage: {stage}")


	def compute_sparse_kd_loss(
	student_logits: torch.Tensor,
	noise_mask: torch.Tensor,
	timesteps: torch.Tensor,
	sample_ids: Sequence[str],
	bank_map: Dict[str, List[Dict[str, object]]],
	temperature: float,
	) -> Tuple[torch.Tensor, Dict[str, object]]:
	entries_used = 0
	losses: List[torch.Tensor] = []
	mask_probs: List[torch.Tensor] = []
	mask_probability = 1.0 - torch.cos(timesteps * math.pi / 2)
	for batch_idx, sample_id in enumerate(sample_ids):
	sample_entries = bank_map.get(sample_id, [])
	for entry in sample_entries:
	position = int(entry["position"])
	if position >= student_logits.shape[1]:
	continue
	if not bool(noise_mask[batch_idx, position].item()):
	continue
	candidate_ids = torch.tensor(
	entry["candidate_token_ids"],
	device=student_logits.device,
	dtype=torch.long,
	)
	teacher_probs = torch.tensor(
	entry["teacher_probs"],
	device=student_logits.device,
	dtype=student_logits.dtype,
	)
	gathered = student_logits[batch_idx, position, candidate_ids]
	student_log_probs = F.log_softmax(gathered / temperature, dim=-1)
	loss = F.kl_div(
	student_log_probs.unsqueeze(0),
	teacher_probs.unsqueeze(0),
	reduction="batchmean",
	) * (temperature ** 2)
	losses.append(loss)
	mask_probs.append(mask_probability[batch_idx])
	entries_used += 1

	if not losses:
	zero = torch.tensor(0.0, device=student_logits.device)
	return zero, {
	"entries": 0,
	"loss_variance": zero,
	"mean_mask_prob": zero,
	}

	loss_tensor = torch.stack(losses)
	mask_prob_tensor = torch.stack(mask_probs)
	return loss_tensor.mean(), {
	"entries": entries_used,
	"loss_variance": loss_tensor.var(unbiased=False),
	"mean_mask_prob": mask_prob_tensor.mean(),
	}


	def build_kd_force_mask(
	sample_ids: Sequence[str],
	bank_map: Dict[str, List[Dict[str, object]]],
	seq_len: int,
	device: torch.device,
	) -> torch.Tensor:
	force_mask = torch.zeros((len(sample_ids), seq_len), device=device, dtype=torch.bool)
	for batch_idx, sample_id in enumerate(sample_ids):
	for entry in bank_map.get(sample_id, []):
	position = int(entry["position"])
	if 0 <= position < seq_len:
	force_mask[batch_idx, position] = True
	return force_mask


	def compute_teacher_logprobs(
	teacher: AutoModelForImageTextToText,
	processor: AutoProcessor,
	pil_image: Image.Image,
	prompt_text: str,
	candidate_texts: Sequence[str],
	teacher_batch_size: int,
	) -> torch.Tensor:
	prompt_messages = [
	{
	"role": "user",
	"content": [
	{"type": "image", "image": pil_image},
	{"type": "text", "text": prompt_text},
	],
	}
	]
	prompt_inputs = processor.apply_chat_template(
	prompt_messages,
	tokenize=True,
	return_dict=True,
	return_tensors="pt",
	add_generation_prompt=True,
	)
	prompt_len = prompt_inputs["input_ids"].shape[1]

	teacher_device = next(teacher.parameters()).device
	all_logprobs = []
	for start in range(0, len(candidate_texts), max(teacher_batch_size, 1)):
	batch_candidates = candidate_texts[start : start + max(teacher_batch_size, 1)]
	conversations = []
	for candidate_text in batch_candidates:
	conversations.append(
	[
	{
	"role": "user",
	"content": [
	{"type": "image", "image": pil_image},
	{"type": "text", "text": prompt_text},
	],
	},
	{
	"role": "assistant",
	"content": [{"type": "text", "text": candidate_text}],
	},
	]
	)

	batch_inputs = processor.apply_chat_template(
	conversations,
	tokenize=True,
	return_dict=True,
	return_tensors="pt",
	padding=True,
	add_generation_prompt=False,
	)
	batch_inputs = {key: value.to(teacher_device) for key, value in batch_inputs.items()}
	outputs = teacher(**batch_inputs)
	logits = outputs.logits[:, :-1, :]
	labels = batch_inputs["input_ids"][:, 1:].clone()
	attention_mask = batch_inputs["attention_mask"]

	seq_len = batch_inputs["input_ids"].shape[1]
	for batch_idx in range(labels.shape[0]):
	valid_len = int(attention_mask[batch_idx].sum().item())
	left_pad = seq_len - valid_len
	prefix_cut = left_pad + prompt_len - 1
	if prefix_cut > 0:
	labels[batch_idx, :prefix_cut] = -100
	labels[batch_idx, attention_mask[batch_idx, 1:] == 0] = -100

	per_token = F.cross_entropy(
	logits.reshape(-1, logits.shape[-1]),
	labels.reshape(-1),
	ignore_index=-100,
	reduction="none",
	).reshape(labels.shape)
	token_mask = (labels != -100).float()
	all_logprobs.append(-(per_token * token_mask).sum(dim=-1).cpu())

	return torch.cat(all_logprobs, dim=0)


	def choose_distillation_positions(
	clean_logits: torch.Tensor,
	labels: torch.Tensor,
	loss_mask: torch.Tensor,
	max_positions: int,
	) -> List[int]:
	valid_positions = torch.nonzero(loss_mask > 0, as_tuple=False).flatten()
	if valid_positions.numel() == 0:
	return []
	probs = F.softmax(clean_logits[valid_positions], dim=-1)
	gold = labels[valid_positions].unsqueeze(-1)
	gold_probs = probs.gather(-1, gold).squeeze(-1)
	_, ranked = torch.sort(gold_probs, descending=False)
	selected = valid_positions[ranked][:max_positions]
	return [int(pos.item()) for pos in selected]


	def build_candidate_ids(
	logits_at_position: torch.Tensor,
	gold_token_id: int,
	top_k: int,
	) -> List[int]:
	candidate_ids = logits_at_position.topk(max(top_k - 1, 1)).indices.tolist()
	if gold_token_id not in candidate_ids:
	candidate_ids.append(gold_token_id)
	deduped = []
	seen = set()
	for token_id in candidate_ids:
	if token_id in seen:
	continue
	deduped.append(token_id)
	seen.add(token_id)
	return deduped[:top_k]


	def decode_assistant_text(
	tokenizer: AutoTokenizer,
	full_ids: torch.Tensor,
	attention_mask: torch.Tensor,
	loss_mask: torch.Tensor,
	) -> str:
	active = (attention_mask > 0) & (loss_mask > 0)
	assistant_ids = full_ids[active].tolist()
	return tokenizer.decode(assistant_ids, skip_special_tokens=True).strip()


	def prepare_teacher_bank(
	args: argparse.Namespace,
	model: ViLDLM,
	dataset: NormalizedVisionLanguageDataset,
	) -> None:
	if args.dry_run_batches:
	max_items = min(args.teacher_batch_size * args.dry_run_batches, len(dataset))
	elif args.max_samples:
	max_items = min(args.max_samples, len(dataset))
	else:
	max_items = len(dataset)

	try:
	from transformers import BitsAndBytesConfig
	except ImportError as exc:
	raise RuntimeError("bitsandbytes/transformers quantization support is required for Stage 3a.") from exc

	print(f"Loading teacher: {args.teacher_model_id}")
	quantization_config = BitsAndBytesConfig(
	load_in_4bit=True,
	bnb_4bit_compute_dtype=torch.bfloat16,
	bnb_4bit_quant_type="nf4",
	)
	teacher = AutoModelForImageTextToText.from_pretrained(
	args.teacher_model_id,
	quantization_config=quantization_config,
	device_map="auto",
	attn_implementation="sdpa",
	)
	teacher.eval()
	processor = AutoProcessor.from_pretrained(args.teacher_model_id, padding_side="left")

	cache_dir = Path(args.teacher_cache_dir)
	cache_dir.mkdir(parents=True, exist_ok=True)
	output_path = cache_dir / "candidate_bank.jsonl"
	seen_keys = set()
	if output_path.exists():
	with open(output_path, "r", encoding="utf-8") as handle:
	for line in handle:
	if not line.strip():
	continue
	record = json.loads(line)
	seen_keys.add((record["sample_id"], int(record["position"])))

	dataloader = build_dataloader(
	dataset=dataset,
	batch_size=1,
	shuffle=False,
	num_workers=0,
	persistent_workers=False,
	)

	prepared = 0
	teacher_entropies: List[float] = []
	with torch.no_grad(), open(output_path, "a", encoding="utf-8") as writer:
	for batch in dataloader:
	sample_id = batch["sample_id"][0]
	prompt_text = batch["prompt_text"][0]
	target_text = batch["target_text"][0]
	pil_image = batch["pil_image"][0]
	pixel_values = batch["pixel_values"].to(next(model.parameters()).device)
	input_ids = batch["input_ids"].to(pixel_values.device)
	attention_mask = batch["attention_mask"].to(pixel_values.device)
	labels = batch["labels"].to(pixel_values.device)
	loss_mask = batch["loss_mask"].to(pixel_values.device)

	clean_logits = model.predict_clean_logits(pixel_values, input_ids, attention_mask)[0]
	sample_labels = labels[0]
	sample_loss_mask = loss_mask[0]
	positions = choose_distillation_positions(
	clean_logits=clean_logits,
	labels=sample_labels,
	loss_mask=sample_loss_mask,
	max_positions=args.kd_positions_per_sample,
	)

	for position in positions:
	cache_key = (sample_id, position)
	if cache_key in seen_keys:
	continue
	gold_token_id = int(sample_labels[position].item())
	candidate_token_ids = build_candidate_ids(
	logits_at_position=clean_logits[position],
	gold_token_id=gold_token_id,
	top_k=args.kd_top_k,
	)
	candidate_texts: List[str] = []
	for candidate_id in candidate_token_ids:
	modified_ids = input_ids[0].clone()
	modified_ids[position] = candidate_id
	candidate_texts.append(
	decode_assistant_text(
	tokenizer=model.tokenizer,
	full_ids=modified_ids,
	attention_mask=attention_mask[0],
	loss_mask=loss_mask[0],
	)
	)
	teacher_logprobs = compute_teacher_logprobs(
	teacher=teacher,
	processor=processor,
	pil_image=pil_image,
	prompt_text=prompt_text,
	candidate_texts=candidate_texts,
	teacher_batch_size=args.teacher_batch_size,
	)
	teacher_probs_tensor = F.softmax(teacher_logprobs / args.kd_temperature, dim=-1)
	teacher_entropy = float(
	-(teacher_probs_tensor * teacher_probs_tensor.clamp_min(1e-12).log()).sum().item()
	)
	teacher_probs = teacher_probs_tensor.cpu().tolist()
	record = {
	"sample_id": sample_id,
	"position": position,
	"candidate_token_ids": candidate_token_ids,
	"teacher_probs": teacher_probs,
	"gold_token_id": gold_token_id,
	"temperature": args.kd_temperature,
	"teacher_entropy": teacher_entropy,
	"source_config": batch["source_config"][0],
	"text_hash": stable_text_hash(sample_id, prompt_text, target_text),
	}
	writer.write(json.dumps(record) + "\n")
	seen_keys.add(cache_key)
	prepared += 1
	teacher_entropies.append(teacher_entropy)
	if args.dry_run_batches and prepared >= args.kd_positions_per_sample * args.dry_run_batches:
	break
	if prepared and prepared % 50 == 0:
	print(f"Prepared {prepared} KD entries...")

	print(f"Teacher bank written to {output_path} with {prepared} new entries")
	if teacher_entropies:
	entropy_array = np.array(teacher_entropies, dtype=np.float32)
	print(
	"Teacher entropy: "
	f"mean={float(entropy_array.mean()):.4f}, "
	f"min={float(entropy_array.min()):.4f}, "
	f"max={float(entropy_array.max()):.4f}"
	)


	def load_teacher_bank(cache_dir: str) -> Dict[str, List[Dict[str, object]]]:
	bank_path = Path(cache_dir) / "candidate_bank.jsonl"
	if not bank_path.exists():
	raise FileNotFoundError(f"Teacher bank not found: {bank_path}")
	bank_map: Dict[str, List[Dict[str, object]]] = defaultdict(list)
	with open(bank_path, "r", encoding="utf-8") as handle:
	for line in handle:
	if not line.strip():
	continue
	record = json.loads(line)
	bank_map[record["sample_id"]].append(record)
	print(f"Loaded teacher bank for {len(bank_map)} samples from {bank_path}")
	return bank_map


	def maybe_push_to_hub(
	args: argparse.Namespace,
	save_dir: Path,
	params: Dict[str, int],
	best_loss: float,
	) -> None:
	if not args.push_to_hub:
	print("Skipping Hub push (enable with --push_to_hub).")
	return

	print("\nPushing to Hub...")
	api = HfApi()
	repo_id = args.hub_model_id
	try:
	api.create_repo(repo_id, exist_ok=True, private=False)
	except Exception as exc:
	print(f"Repo note: {exc}")

	config_dict = {
	"architecture": "ViL-DLM",
	"training_stage": args.stage,
	"best_loss": best_loss,
	"total_params_M": params["total"] / 1e6,
	"trainable_params_M": params["trainable"] / 1e6,
	"teacher": args.teacher_model_id,
	"dataset_configs": parse_dataset_configs(args.dataset_configs) if args.stage in {"2", "3a", "3b"} else ["llava_pretrain"],
	}
	with open(save_dir / "model_config.json", "w", encoding="utf-8") as handle:
	json.dump(config_dict, handle, indent=2)

	api.upload_folder(
	folder_path=str(save_dir),
	repo_id=repo_id,
	commit_message=f"Stage {args.stage} training (loss={best_loss:.4f})",
	)
	print(f"\n✅ Model pushed to https://huggingface.co/{repo_id}")


	def run_training_stage(args: argparse.Namespace) -> None:
	tracker = _TrackioShim()
	device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
	print_device_info(device)
	ensure_runtime_requirements(args)
	lm_path = download_student_backbone()

	vil_config = ViLConfig()
	proj_config = ProjConfig()
	model = ViLDLM(vil_config, proj_config, lm_path)
	setup_model_for_stage(model, args.stage)
	maybe_resume_model(model, args)

	params = model.count_params()
	print(f"Parameters: Total={params['total']/1e6:.1f}M, Trainable={params['trainable']/1e6:.1f}M")
	print(f" ViL: {params['vil']/1e6:.1f}M, Proj: {params['proj']/1e6:.1f}M, LM: {params['lm']/1e6:.1f}M")

	model = model.to(device)
	if hasattr(model.lm, "gradient_checkpointing_enable"):
	model.lm.gradient_checkpointing_enable()

	dataset, skip_stats = create_stage_dataset("1" if args.stage == "1" else "2", model.tokenizer, args)
	if skip_stats:
	print(f"Skip stats: {json.dumps(skip_stats)}")

	if args.stage == "3a":
	prepare_teacher_bank(args=args, model=model, dataset=dataset)
	return

	teacher_bank = load_teacher_bank(args.teacher_cache_dir) if args.stage == "3b" else {}
	dataloader = build_dataloader(
	dataset=dataset,
	batch_size=args.batch_size,
	shuffle=args.stage != "3a" and not (args.stage == "3b" and args.dry_run_batches),
	num_workers=args.num_workers,
	persistent_workers=args.persistent_workers,
	)

	optimizer = get_optimizer(model, stage="1" if args.stage == "1" else "2")
	total_steps = max(1, (len(dataloader) * args.epochs) // max(args.grad_accum, 1))
	scheduler = CosineAnnealingLR(optimizer, T_max=total_steps, eta_min=1e-6)
	tracker.init(name=f"vil-dlm-stage{args.stage}")

	best_loss = float("inf")
	global_step = 0
	step_timer = time.time()

	for epoch in range(args.epochs):
	model.train()
	epoch_loss = 0.0
	epoch_kd_loss = 0.0
	epoch_kd_entries = 0
	epoch_effective_alpha = 0.0
	epoch_kd_mask_prob = 0.0
	epoch_kd_loss_variance = 0.0
	num_batches = 0

	optimizer.zero_grad(set_to_none=True)
	for batch_idx, batch in enumerate(dataloader):
	pixel_values = batch["pixel_values"].to(device)
	input_ids = batch["input_ids"].to(device)
	attention_mask = batch["attention_mask"].to(device)
	labels = batch["labels"].to(device)
	loss_mask = batch["loss_mask"].to(device)
	force_mask = None
	if args.stage == "3b":
	force_mask = build_kd_force_mask(
	sample_ids=batch["sample_id"],
	bank_map=teacher_bank,
	seq_len=input_ids.shape[1],
	device=device,
	)

	outputs = model(
	pixel_values=pixel_values,
	input_ids=input_ids,
	attention_mask=attention_mask,
	labels=labels,
	loss_mask=loss_mask,
	force_mask=force_mask,
	)
	diffusion_loss = outputs["loss"]
	kd_loss = torch.tensor(0.0, device=device)
	kd_entries = 0
	kd_loss_variance = torch.tensor(0.0, device=device)
	mean_kd_mask_prob = torch.tensor(0.0, device=device)
	effective_alpha_kd = torch.tensor(0.0, device=device)
	total_loss = diffusion_loss
	if args.stage == "3b":
	kd_loss, kd_metrics = compute_sparse_kd_loss(
	student_logits=outputs["logits"],
	noise_mask=outputs["noise_mask"],
	timesteps=outputs["t"],
	sample_ids=batch["sample_id"],
	bank_map=teacher_bank,
	temperature=args.kd_temperature,
	)
	kd_entries = int(kd_metrics["entries"])
	kd_loss_variance = kd_metrics["loss_variance"]
	mean_kd_mask_prob = kd_metrics["mean_mask_prob"]
	if kd_entries > 0:
	if args.kd_timestep_weighting:
	effective_alpha_kd = args.alpha_kd * mean_kd_mask_prob
	else:
	effective_alpha_kd = torch.tensor(args.alpha_kd, device=device)
	total_loss = (1.0 - effective_alpha_kd) * diffusion_loss + effective_alpha_kd * kd_loss

	loss = total_loss / args.grad_accum
	loss.backward()

	if (batch_idx + 1) % args.grad_accum == 0:
	torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)
	optimizer.step()
	scheduler.step()
	optimizer.zero_grad(set_to_none=True)
	global_step += 1

	actual_loss = float(total_loss.item())
	actual_diffusion = float(diffusion_loss.item())
	actual_kd = float(kd_loss.item()) if args.stage == "3b" else 0.0
	actual_kd_variance = float(kd_loss_variance.item()) if args.stage == "3b" else 0.0
	actual_kd_mask_prob = float(mean_kd_mask_prob.item()) if args.stage == "3b" else 0.0
	actual_effective_alpha = float(effective_alpha_kd.item()) if args.stage == "3b" else 0.0
	elapsed = max(time.time() - step_timer, 1e-6)
	samples_per_sec = (args.batch_size * args.grad_accum) / elapsed
	step_timer = time.time()
	gpu_mem_gb = 0.0
	if torch.cuda.is_available():
	gpu_mem_gb = torch.cuda.max_memory_allocated(device) / 1e9

	print(
	f"[E{epoch}] Step {global_step}/{total_steps} \| "
	f"Loss: {actual_loss:.4f} \| Diff: {actual_diffusion:.4f} \| "
	f"KD: {actual_kd:.4f} \| KD entries: {kd_entries} \| "
	f"KD var: {actual_kd_variance:.4f} \| KD mask_p: {actual_kd_mask_prob:.4f} \| "
	f"alpha_kd: {actual_effective_alpha:.4f} \| "
	f"Samples/s: {samples_per_sec:.2f} \| GPU mem: {gpu_mem_gb:.2f} GB"
	)
	tracker.log(
	{
	"train/loss": actual_loss,
	"train/diffusion_loss": actual_diffusion,
	"train/kd_loss": actual_kd,
	"train/kd_entries": kd_entries,
	"train/kd_loss_variance": actual_kd_variance,
	"train/mean_kd_mask_prob": actual_kd_mask_prob,
	"train/effective_alpha_kd": actual_effective_alpha,
	"train/epoch": epoch,
	"train/step": global_step,
	"train/samples_per_sec": samples_per_sec,
	"train/gpu_mem_gb": gpu_mem_gb,
	}
	)

	epoch_loss += float(total_loss.item())
	epoch_kd_loss += float(kd_loss.item())
	epoch_kd_entries += kd_entries
	epoch_effective_alpha += float(effective_alpha_kd.item())
	epoch_kd_mask_prob += float(mean_kd_mask_prob.item())
	epoch_kd_loss_variance += float(kd_loss_variance.item())
	num_batches += 1

	if args.dry_run_batches and num_batches >= args.dry_run_batches:
	break

	remainder = num_batches % args.grad_accum
	if remainder != 0:
	torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)
	optimizer.step()
	scheduler.step()
	optimizer.zero_grad(set_to_none=True)
	global_step += 1

	avg_loss = epoch_loss / max(num_batches, 1)
	avg_kd_loss = epoch_kd_loss / max(num_batches, 1)
	avg_effective_alpha = epoch_effective_alpha / max(num_batches, 1)
	avg_kd_mask_prob = epoch_kd_mask_prob / max(num_batches, 1)
	avg_kd_loss_variance = epoch_kd_loss_variance / max(num_batches, 1)
	print(
	f"\n[Epoch {epoch}] Average Loss: {avg_loss:.4f} \| Average KD: {avg_kd_loss:.4f} \| "
	f"KD entries: {epoch_kd_entries} \| Avg alpha_kd: {avg_effective_alpha:.4f} \| "
	f"Avg KD mask_p: {avg_kd_mask_prob:.4f} \| Avg KD var: {avg_kd_loss_variance:.4f}\n"
	)
	tracker.log(
	{
	"train/epoch_loss": avg_loss,
	"train/epoch_kd_loss": avg_kd_loss,
	"train/epoch_kd_entries": epoch_kd_entries,
	"train/epoch_effective_alpha_kd": avg_effective_alpha,
	"train/epoch_mean_kd_mask_prob": avg_kd_mask_prob,
	"train/epoch_kd_loss_variance": avg_kd_loss_variance,
	"train/epoch": epoch,
	}
	)

	if avg_loss < best_loss:
	best_loss = avg_loss
	save_dir = Path(args.output_dir) / f"stage{args.stage}_best"
	include_lm = args.stage in {"2", "3b"}
	model.save_checkpoint(save_dir, include_lm=include_lm)
	training_state = {
	"stage": args.stage,
	"best_loss": best_loss,
	"args": vars(args),
	}
	with open(save_dir / "training_state.json", "w", encoding="utf-8") as handle:
	json.dump(training_state, handle, indent=2)
	print(f"Saved best checkpoint (loss={best_loss:.4f})")

	maybe_push_to_hub(
	args=args,
	save_dir=Path(args.output_dir) / f"stage{args.stage}_best",
	params=params,
	best_loss=best_loss,
	)
	print("Training complete!")


	def build_parser() -> argparse.ArgumentParser:
	parser = argparse.ArgumentParser()
	parser.add_argument("--stage", type=str, default="1", choices=["1", "2", "3a", "3b"])
	parser.add_argument("--epochs", type=int, default=2)
	parser.add_argument("--batch_size", type=int, default=4)
	parser.add_argument("--grad_accum", type=int, default=8)
	parser.add_argument("--max_length", type=int, default=512)
	parser.add_argument("--max_samples", type=int, default=None)
	parser.add_argument("--output_dir", type=str, default="./vil-dlm-output")
	parser.add_argument("--hub_model_id", type=str, default="omar-ah/ViL-DLM-0.6B")
	parser.add_argument("--push_to_hub", action="store_true")
	parser.add_argument("--require_cuda", action="store_true")
	parser.add_argument("--resume_from", type=str, default=None)
	parser.add_argument("--dataset_configs", type=str, default=",".join(DEFAULT_CAULDRON_CONFIGS))
	parser.add_argument("--num_workers", type=int, default=4)
	parser.add_argument("--persistent_workers", action="store_true")
	parser.add_argument("--dry_run_batches", type=int, default=0)
	parser.add_argument("--teacher_model_id", type=str, default="google/gemma-4-E2B-it")
	parser.add_argument("--teacher_cache_dir", type=str, default="./vil-dlm-output/teacher-cache")
	parser.add_argument("--prepare_teacher_bank", action="store_true")
	parser.add_argument("--teacher_batch_size", type=int, default=1)
	parser.add_argument("--alpha_kd", type=float, default=0.5)
	parser.add_argument("--kd_temperature", type=float, default=1.0)
	parser.add_argument("--kd_timestep_weighting", action=argparse.BooleanOptionalAction, default=True)
	parser.add_argument("--kd_top_k", type=int, default=16)
	parser.add_argument("--kd_positions_per_sample", type=int, default=16)
	return parser


	if __name__ == "__main__":
	ensure_hf_cache_root()
	parser = build_parser()
	args = parser.parse_args()
	if args.prepare_teacher_bank and args.stage != "3a":
	raise ValueError("--prepare_teacher_bank is only valid with --stage 3a")
	if args.kd_temperature <= 0:
	raise ValueError("--kd_temperature must be > 0")
	if not 0.0 <= args.alpha_kd <= 1.0:
	raise ValueError("--alpha_kd must be between 0 and 1")
	run_training_stage(args)