test / main.py

Initial upload

de15dc5 verified 7 months ago

16.6 kB

	# train_single_gpu.py
	from __future__ import annotations
	import os, time, random, argparse, math
	from pathlib import Path
	import numpy as np
	import torch
	import torch.nn.functional as F
	from torch.optim import AdamW
	from torch.optim.lr_scheduler import LambdaLR
	# (removed) from transformers import get_cosine_schedule_with_warmup

	import matplotlib.pyplot as plt

	from modules.tokenization_clip import SimpleTokenizer as ClipTokenizer
	from modules.file_utils import PYTORCH_PRETRAINED_BERT_CACHE
	from modules.modeling import CLIP4Clip
	from util import get_logger
	from dataloaders.data_dataloaders import DATALOADER_DICT
	from metrics import compute_metrics, tensor_text_to_video_metrics, tensor_video_to_text_sim

	# -----------------------
	# 1) Arguments (정리본)
	# -----------------------
	def get_args(description='CLIP4Clip on Retrieval Task (Single GPU Minimal)'):
	p = argparse.ArgumentParser(description=description)
	# 핵심 동작 플래그
	p.add_argument("--do_train", action="store_true")
	p.add_argument("--do_eval", action="store_true")

	# 데이터/출력 경로
	p.add_argument('--train_csv', type=str, default='data/.train.csv')
	p.add_argument('--val_csv', type=str, default='data/.val.csv')
	p.add_argument('--data_path', type=str, default='data/caption.pickle')
	p.add_argument('--features_path', type=str, default='data/videos_feature.pickle')
	p.add_argument("--output_dir", type=str, required=True)
	p.add_argument("--cache_dir", type=str, default="")

	# 하이퍼파라미터
	p.add_argument('--epochs', type=int, default=20)
	p.add_argument('--lr', type=float, default=1e-4)
	p.add_argument('--batch_size', type=int, default=256)
	p.add_argument('--batch_size_val', type=int, default=3500)
	p.add_argument('--warmup_proportion', type=float, default=0.1)
	p.add_argument('--gradient_accumulation_steps', type=int, default=1)
	p.add_argument('--lr_decay', type=float, default=0.9) # (미사용 가능)
	p.add_argument('--seed', type=int, default=42)

	# 모델/작동 옵션
	p.add_argument("--task_type", default="retrieval", type=str)
	p.add_argument("--datatype", default="msrvtt", type=str)
	p.add_argument("--cross_model", default="cross-base", type=str)
	p.add_argument("--init_model", default=None, type=str) # 초기 가중치 로드
	p.add_argument("--resume_model", default=None, type=str) # 옵티마이저 상태 포함 재개

	# CLIP 관련/헤더 등 기존 옵션 최대한 유지
	p.add_argument('--max_words', type=int, default=20)
	p.add_argument('--max_frames', type=int, default=100)
	p.add_argument('--feature_framerate', type=int, default=1)
	p.add_argument('--margin', type=float, default=0.1)
	p.add_argument('--hard_negative_rate', type=float, default=0.5)
	p.add_argument('--negative_weighting', type=int, default=1)
	p.add_argument('--n_pair', type=int, default=1)
	p.add_argument('--num_thread_reader', type=int, default=1)

	p.add_argument('--text_num_hidden_layers', type=int, default=12)
	p.add_argument('--visual_num_hidden_layers', type=int, default=12)
	p.add_argument('--cross_num_hidden_layers', type=int, default=4)

	p.add_argument('--loose_type', action='store_true')
	p.add_argument('--expand_msrvtt_sentences', action='store_true')
	p.add_argument('--train_frame_order', type=int, default=0, choices=[0,1,2])
	p.add_argument('--eval_frame_order', type=int, default=0, choices=[0,1,2])
	p.add_argument('--freeze_layer_num', type=int, default=0)
	p.add_argument('--slice_framepos', type=int, default=0, choices=[0,1,2])
	p.add_argument('--linear_patch', type=str, default="2d", choices=["2d","3d"])
	p.add_argument('--sim_header', type=str, default="meanP",
	choices=["meanP","seqLSTM","seqTransf","tightTransf"])
	p.add_argument("--pretrained_clip_name", default="ViT-B/32", type=str)

	# 확장 플래그 (그대로 유지)
	p.add_argument("--use_rff", action='store_true')
	p.add_argument("--rff_dim", type=int, default=3000)
	p.add_argument("--use_clip4hashing", action="store_true")
	p.add_argument("--hash_bit", type=int, default=2048)

	# 품질/성능 옵션
	p.add_argument("--num_workers", type=int, default=4)
	p.add_argument("--pin_memory", action="store_true")
	p.add_argument("--no_amp", action="store_true", help="AMP 끄기")

	args = p.parse_args()
	if args.sim_header == "tightTransf":
	args.loose_type = False
	if not args.do_train and not args.do_eval:
	raise ValueError("`--do_train` 또는 `--do_eval` 중 하나는 반드시 필요합니다.")
	args.batch_size = int(args.batch_size / args.gradient_accumulation_steps)
	return args

	# -----------------------
	# 2) Seed/Logger/Device
	# -----------------------
	def setup_env(args):
	os.makedirs(args.output_dir, exist_ok=True)
	logger = get_logger(os.path.join(args.output_dir, "log.txt"))

	random.seed(args.seed)
	np.random.seed(args.seed)
	torch.manual_seed(args.seed)
	torch.cuda.manual_seed_all(args.seed)
	torch.backends.cudnn.benchmark = True # 속도 ↑ (완전 재현 필요하면 False)

	# matmul precision (Ampere+)
	try:
	torch.set_float32_matmul_precision("high")
	except Exception:
	pass

	device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
	logger.info(f"device={device}, cuda_available={torch.cuda.is_available()}")
	for k in sorted(args.__dict__):
	logger.info(f"{k}: {getattr(args, k)}")
	return logger, device

	# -----------------------
	# 3) Model
	# -----------------------
	def init_model(args, device):
	state = torch.load(args.init_model, map_location='cpu') if args.init_model else None
	cache_dir = args.cache_dir or os.path.join(str(PYTORCH_PRETRAINED_BERT_CACHE), 'distributed')
	model = CLIP4Clip.from_pretrained(args.cross_model, cache_dir=cache_dir, state_dict=state, task_config=args)
	model.to(device)

	# 선택적 얼리기
	assert -1 <= args.freeze_layer_num <= 12
	if hasattr(model, "clip") and args.freeze_layer_num > -1:
	for name, p in model.clip.named_parameters():
	if name.startswith(("ln_final","text_projection","logit_scale","visual.ln_post","visual.proj")):
	continue
	elif ("visual.transformer.resblocks." in name) or ("transformer.resblocks." in name):
	layer_num = int(name.split(".resblocks.")[1].split(".")[0])
	if layer_num >= args.freeze_layer_num:
	continue
	if args.linear_patch == "3d" and "conv2." in name:
	continue
	p.requires_grad = False
	return model

	# -----------------------
	# 4) Optimizer & Scheduler (PyTorch-only warmup+cosine)
	# -----------------------
	def prep_optimizer(args, model, num_training_steps):
	if hasattr(model, 'module'):
	model = model.module
	no_decay = ['bias', 'LayerNorm.bias', 'LayerNorm.weight']
	param_optimizer = list(model.named_parameters())
	decay_params = [p for n,p in param_optimizer if not any(nd in n for nd in no_decay) and p.requires_grad]
	nodecay_params = [p for n,p in param_optimizer if any(nd in n for nd in no_decay) and p.requires_grad]

	optimizer = AdamW([
	{'params': decay_params, 'weight_decay': 0.2, 'lr': args.lr},
	{'params': nodecay_params, 'weight_decay': 0.0, 'lr': args.lr},
	], lr=args.lr)

	warmup_steps = int(num_training_steps * args.warmup_proportion)

	def lr_lambda(current_step: int):
	if current_step < warmup_steps:
	return float(current_step) / max(1, warmup_steps) # 선형 워밍업
	progress = float(current_step - warmup_steps) / max(1, num_training_steps - warmup_steps)
	return 0.5 * (1.0 + math.cos(math.pi * progress)) # 코사인 감쇠

	scheduler = LambdaLR(optimizer, lr_lambda)
	return optimizer, scheduler

	# -----------------------
	# 5) Train/Eval
	# -----------------------
	def train_epoch(epoch, args, model, train_loader, device, optimizer, scheduler, scaler, logger):
	model.train()
	total_loss = 0.0
	log_step = 100
	start = time.time()

	for step, batch in enumerate(train_loader):
	batch = tuple(t.to(device, non_blocking=True) for t in batch)
	input_ids, input_mask, segment_ids, video, video_mask = batch

	with torch.cuda.amp.autocast(enabled=not args.no_amp):
	loss = model(input_ids, segment_ids, input_mask, video, video_mask)
	if args.gradient_accumulation_steps > 1:
	loss = loss / args.gradient_accumulation_steps

	scaler.scale(loss).backward()
	total_loss += float(loss)

	if (step + 1) % args.gradient_accumulation_steps == 0:
	torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)
	scaler.step(optimizer)
	scaler.update()
	optimizer.zero_grad(set_to_none=True)
	scheduler.step() # optim.step() 다음 호출

	# logit_scale 안정화
	if hasattr(model, 'clip'):
	torch.clamp_(model.clip.logit_scale.data, max=np.log(100))
	elif hasattr(model, 'module') and hasattr(model.module, 'clip'):
	torch.clamp_(model.module.clip.logit_scale.data, max=np.log(100))

	if (step + 1) % log_step == 0:
	logger.info(f"[train] epoch {epoch+1} step {step+1}/{len(train_loader)} "
	f"loss={float(loss):.4f} time/step={(time.time()-start)/log_step:.4f}")
	start = time.time()

	return total_loss / len(train_loader)

	def _run_on_single_gpu(model, batch_list_t, batch_list_v, batch_seq_out, batch_vis_out):
	sim_matrix = []
	for idx1, b1 in enumerate(batch_list_t):
	input_mask, segment_ids = b1
	sequence_output = batch_seq_out[idx1]
	each_row = []
	for idx2, b2 in enumerate(batch_list_v):
	video_mask = b2[0]
	visual_output = batch_vis_out[idx2]
	logits, *_ = model.get_similarity_logits(sequence_output, visual_output, input_mask, video_mask,
	loose_type=model.loose_type)
	each_row.append(logits.cpu().detach().numpy())
	sim_matrix.append(np.concatenate(each_row, axis=-1))
	return sim_matrix

	@torch.no_grad()
	def eval_epoch(args, model, test_loader, device, logger):
	# 캐시 파일명 구성
	suffix = ""
	if getattr(args, "use_clip4hashing", False): suffix += "_hash"
	if args.use_rff: suffix += "_rff"
	if args.init_model: suffix += "_trained"

	if "train" in args.val_csv and "10k" in args.val_csv:
	cache_name = f"{args.datatype}_train_test_10k_cache{suffix}.pt"
	else:
	cache_name = f"{args.datatype}_eval_cache{suffix}.pt"

	cache_path = os.path.join(args.output_dir, cache_name)

	model.eval()
	if os.path.exists(cache_path):
	logger.info(f"[Eval] load cached features: {cache_path}")
	cache = torch.load(cache_path, map_location=device)
	batch_seq_out = cache['batch_sequence_output_list']
	batch_vis_out = cache['batch_visual_output_list']
	batch_list_t = cache['batch_list_t']
	batch_list_v = cache['batch_list_v']
	else:
	logger.info("[Eval] caching features...")
	batch_list_t, batch_list_v = [], []
	batch_seq_out, batch_vis_out = [], []
	for bid, batch in enumerate(test_loader):
	batch = tuple(t.to(device, non_blocking=True) for t in batch)
	input_ids, input_mask, segment_ids, video, video_mask = batch
	with torch.cuda.amp.autocast(enabled=not args.no_amp):
	seq_out, vis_out = model.get_sequence_visual_output(input_ids, segment_ids, input_mask, video, video_mask)
	batch_seq_out.append(seq_out)
	batch_vis_out.append(vis_out)
	batch_list_t.append((input_mask, segment_ids))
	batch_list_v.append((video_mask,))
	if (bid+1) % 20 == 0:
	logger.info(f"[Eval] cached batch {bid+1}/{len(test_loader)}")

	torch.save({
	'batch_sequence_output_list': batch_seq_out,
	'batch_visual_output_list': batch_vis_out,
	'batch_list_t': batch_list_t,
	'batch_list_v': batch_list_v,
	}, cache_path)
	logger.info(f"[Eval] saved cache to {cache_path}")

	sim_matrix = _run_on_single_gpu(model, batch_list_t, batch_list_v, batch_seq_out, batch_vis_out)
	sim_matrix = np.concatenate(sim_matrix, axis=0)
	logger.info(f"[Eval] sim_matrix shape: {sim_matrix.shape}")

	# 히트맵(옵션)
	try:
	plt.figure(figsize=(8,6))
	plt.imshow(sim_matrix[:100, :100], aspect='auto')
	plt.title('Similarity Matrix (first 100x100)')
	plt.xlabel('Video Index'); plt.ylabel('Text Index')
	out_path = os.path.join(args.output_dir, 'sim_matrix_heatmap.png')
	plt.tight_layout(); plt.savefig(out_path); plt.close()
	logger.info(f"[Eval] heatmap saved: {out_path}")
	except Exception as e:
	logger.info(f"[Eval] heatmap skipped: {e}")

	tv = compute_metrics(sim_matrix)
	vt = compute_metrics(sim_matrix.T)
	logger.info(f"Text-to-Video: R@1 {tv['R1']:.1f} \| R@5 {tv['R5']:.1f} \| R@10 {tv['R10']:.1f} \| MR {tv['MR']:.1f} \| MeanR {tv['MeanR']:.1f}")
	logger.info(f"Video-to-Text: R@1 {vt['R1']:.1f} \| R@5 {vt['R5']:.1f} \| R@10 {vt['R10']:.1f} \| MR {vt['MR']:.1f} \| MeanR {vt['MeanR']:.1f}")
	return tv['R1']

	# -----------------------
	# 6) Main
	# -----------------------
	def main():
	args = get_args()
	logger, device = setup_env(args)
	assert args.task_type == "retrieval"

	tokenizer = ClipTokenizer()
	model = init_model(args, device)

	# 데이터 로더 (기존 팩토리 그대로 사용)
	assert args.datatype in DATALOADER_DICT
	test_loader, test_len = None, 0
	if DATALOADER_DICT[args.datatype]["test"] is not None:
	test_loader, test_len = DATALOADER_DICT[args.datatype]["test"](args, tokenizer)
	if DATALOADER_DICT[args.datatype]["val"] is not None:
	val_loader, val_len = DATALOADER_DICT[args.datatype]["val"](args, tokenizer, subset="val")
	else:
	val_loader, val_len = test_loader, test_len
	if test_loader is None: # 테스트 없으면 밸리데이션으로 대체
	test_loader, test_len = val_loader, val_len

	if args.do_train:
	train_loader, train_len, train_sampler = DATALOADER_DICT[args.datatype]["train"](args, tokenizer)
	# 안전한 pin_memory: CUDA 있을 때만 사용
	if hasattr(train_loader, "pin_memory") and args.pin_memory and not torch.cuda.is_available():
	try:
	train_loader.pin_memory = False
	except Exception:
	pass

	steps_per_epoch = len(train_loader)
	num_train_steps = (steps_per_epoch * args.epochs) // max(1, args.gradient_accumulation_steps)
	optimizer, scheduler = prep_optimizer(args, model, num_train_steps)
	scaler = torch.cuda.amp.GradScaler(enabled=not args.no_amp)

	logger.info(f"[Train] examples={train_len} batch_size={args.batch_size} steps/epoch={steps_per_epoch} total_steps={num_train_steps}")
	best_r1 = -1.0

	if args.resume_model:
	ckpt = torch.load(args.resume_model, map_location='cpu')
	optimizer.load_state_dict(ckpt['optimizer_state_dict'])
	logger.info(f"[Train] resumed optimizer from {args.resume_model}")

	for epoch in range(args.epochs):
	loss = train_epoch(epoch, args, model, train_loader, device, optimizer, scheduler, scaler, logger)
	logger.info(f"[Train] epoch {epoch+1}/{args.epochs} loss={loss:.4f}")

	# 빠른 검증: test 셋을 그대로 사용(원 코드와 동일한 흐름)
	r1 = eval_epoch(args, model, test_loader, device, logger)
	if r1 > best_r1:
	best_r1 = r1
	model_path = os.path.join(args.output_dir, f"pytorch_model.bin.best")
	torch.save((model.module if hasattr(model,'module') else model).state_dict(), model_path)
	opt_path = os.path.join(args.output_dir, f"pytorch_opt.bin.best")
	torch.save({'epoch': epoch, 'optimizer_state_dict': optimizer.state_dict(), 'loss': loss}, opt_path)
	logger.info(f"[Train] new best R1={best_r1:.2f} saved: {model_path}")

	if args.do_eval:
	eval_epoch(args, model, test_loader, device, logger)

	if __name__ == "__main__":
	main()