Nithins03
/

us-architectural-floorplan-llm

Text Generation

Model card Files Files and versions

us-architectural-floorplan-llm / train.py

Nithins03's picture

Add training script

479c8ad verified 12 days ago

history blame contribute delete

3.33 kB

	"""
	Train a US Architectural Floor Plan LLM using SFT with LoRA.

	Base model: Qwen/Qwen2.5-3B-Instruct
	Dataset: Nithins03/us-architectural-floorplan-sft
	Method: SFT with LoRA (rank=128, all-linear) following "LoRA Without Regret" recipe
	Output: Nithins03/us-architectural-floorplan-llm

	Reference implementations:
	- TRL SFT docs: https://huggingface.co/docs/trl/sft_trainer
	- LoRA Without Regret: https://huggingface.co/docs/trl/lora_without_regret
	- OptiScene (arxiv:2506.07570): LoRA r=16, alpha=32, lr=5e-6, 10 epochs
	- DStruct2Design (arxiv:2407.15723): LLaMA3-8B + 8-bit + LoRA
	"""

	import os
	import torch
	from datasets import load_dataset
	from peft import LoraConfig
	from trl import SFTTrainer, SFTConfig
	import trackio

	# ============================================================================
	# Configuration
	# ============================================================================

	MODEL_NAME = "Qwen/Qwen2.5-3B-Instruct"
	DATASET_NAME = "Nithins03/us-architectural-floorplan-sft"
	OUTPUT_DIR = "./floorplan-llm-output"
	HUB_MODEL_ID = "Nithins03/us-architectural-floorplan-llm"

	peft_config = LoraConfig(
	r=128,
	lora_alpha=32,
	lora_dropout=0.05,
	bias="none",
	task_type="CAUSAL_LM",
	target_modules="all-linear",
	)

	training_args = SFTConfig(
	output_dir=OUTPUT_DIR,
	num_train_epochs=5,
	learning_rate=1e-4,
	lr_scheduler_type="cosine",
	warmup_ratio=0.05,
	weight_decay=0.01,
	max_grad_norm=1.0,
	per_device_train_batch_size=2,
	gradient_accumulation_steps=4,
	max_length=4096,
	gradient_checkpointing=True,
	bf16=True,
	eval_strategy="steps",
	eval_steps=500,
	per_device_eval_batch_size=2,
	logging_strategy="steps",
	logging_steps=25,
	logging_first_step=True,
	disable_tqdm=True,
	report_to=["trackio"],
	save_strategy="steps",
	save_steps=500,
	save_total_limit=3,
	load_best_model_at_end=True,
	metric_for_best_model="eval_loss",
	push_to_hub=True,
	hub_model_id=HUB_MODEL_ID,
	hub_strategy="every_save",
	packing=False,
	assistant_only_loss=True,
	seed=42,
	)

	def main():
	print("=" * 60)
	print("US Architectural Floor Plan LLM Training")
	print("=" * 60)

	trackio.init(project="us-floorplan-llm", name="qwen2.5-3b-lora-sft")

	dataset = load_dataset(DATASET_NAME)
	print(f"Train: {len(dataset['train'])} \| Test: {len(dataset['test'])}")

	trainer = SFTTrainer(
	model=MODEL_NAME,
	args=training_args,
	train_dataset=dataset["train"],
	eval_dataset=dataset["test"],
	peft_config=peft_config,
	)

	model = trainer.model
	trainable = sum(p.numel() for p in model.parameters() if p.requires_grad)
	total = sum(p.numel() for p in model.parameters())
	print(f"Trainable: {trainable:,} / {total:,} ({100*trainable/total:.2f}%)")

	train_result = trainer.train()

	metrics = train_result.metrics
	print(f"Train loss: {metrics.get('train_loss', 'N/A')}")

	eval_metrics = trainer.evaluate()
	print(f"Eval loss: {eval_metrics.get('eval_loss', 'N/A')}")

	trainer.save_model()
	trainer.push_to_hub(commit_message="Final model after SFT training on US floor plans")
	print(f"Model pushed to: https://huggingface.co/{HUB_MODEL_ID}")

	if __name__ == "__main__":
	main()