File size: 12,330 Bytes

d945fba
 
 
ee7a26f
d945fba
 
 
 
ee7a26f
d945fba
 
 
 
 
ee7a26f
 
d945fba
 
ee7a26f
d945fba
ee7a26f
d945fba
 
 
ee7a26f
 
d945fba
 
ee7a26f
d945fba
 
 
 
ee7a26f
 
 
 
 
d945fba
ee7a26f
d945fba
ee7a26f
 
 
 
 
d945fba
ee7a26f
 
 
 
 
 
 
 
 
d945fba
ee7a26f
 
 
 
 
 
 
d945fba
ee7a26f
 
 
 
 
 
 
 
 
 
d945fba
ee7a26f
d945fba
 
ee7a26f
 
 
d945fba
ee7a26f
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
d945fba
ee7a26f
 
d945fba
ee7a26f
 
 
 
 
 
 
 
 
 
 
 
 
d945fba
ee7a26f
 
 
 
d945fba
ee7a26f
 
 
 
 
 
d945fba
 
ee7a26f
d945fba
ee7a26f
 
 
 
 
 
d945fba
 
 
ee7a26f
d945fba
ee7a26f
 
 
 
 
 
 
 
d945fba
ee7a26f
 
 
 
d945fba
ee7a26f
 
d945fba
 
ee7a26f
 
 
 
 
 
 
 
 
 
 
 
 
 
d945fba
 
 
 
 
ee7a26f
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
d945fba
ee7a26f
d945fba
ee7a26f
 
 
d945fba
ee7a26f
 
 
d945fba
ee7a26f
 
 
 
 
d945fba
ee7a26f
d945fba
ee7a26f
d945fba
ee7a26f
 
 
 
 
 
 
 
 
 
 
 
 
d945fba
 
ee7a26f
 
 
 
 
 
 
 
d945fba
 
ee7a26f
 
 
 
 
d945fba

"""
PriviGaze Training Script - Privileged Distillation for Gaze Estimation
"""
import os, sys, argparse, time
from pathlib import Path
from collections import defaultdict
import torch
from torch.optim import AdamW
from torch.optim.lr_scheduler import CosineAnnealingLR
import numpy as np

sys.path.insert(0, str(Path(__file__).parent))
from models.teacher import PriviGazeTeacher
from models.student import PriviGazeStudent, count_parameters
from models.distillation_loss import PriviGazeDistillationLoss, L2CSLoss, AngularLoss
from models.dataset import create_dataloaders

try:
    import trackio; HAS_TRACKIO = True
except ImportError:
    HAS_TRACKIO = False; print("Warning: trackio not installed.")


class DistillationTrainer:
    def __init__(self, teacher, student, dist_loss, train_loader, val_loader,
                 device, lr=1e-4, wd=1e-4, epochs=100, tproj="privi-gaze", trun="distill"):
        self.teacher = teacher.to(device)
        self.student = student.to(device)
        self.dist_loss = dist_loss.to(device)
        self.train_loader = train_loader
        self.val_loader = val_loader
        self.device = device
        self.epochs = epochs
        for p in self.teacher.parameters(): p.requires_grad = False
        self.teacher.eval()
        self.opt = AdamW(self.student.parameters(), lr=lr, weight_decay=wd)
        self.sched = CosineAnnealingLR(self.opt, T_max=epochs, eta_min=lr*0.01)
        self.best_val = float('inf')
        self.best_epoch = 0
        self.metrics = defaultdict(list)
        if HAS_TRACKIO:
            trackio.init(project=tproj, run_name=trun,
                config={'student_params': count_parameters(student),
                        'teacher_params': count_parameters(teacher), 'lr': lr, 'epochs': epochs})

    def train_epoch(self, epoch):
        self.student.train()
        losses = defaultdict(float)
        n = 0
        for bi, batch in enumerate(self.train_loader):
            le = batch['left_eye'].to(self.device)
            re = batch['right_eye'].to(self.device)
            fb = batch['face_blurred_gray'].to(self.device)
            fg = batch['face_gray'].to(self.device)
            pt = batch['pitch'].to(self.device)
            yt = batch['yaw'].to(self.device)
            with torch.no_grad():
                tp, ty, tplog, tylog, tf = self.teacher(le, re, fb)
            sp, sy, sf = self.student(fg)
            splog = self.student.pitch_head(sf)
            sylog = self.student.yaw_head(sf)
            loss, ld = self.dist_loss(sp, sy, splog, sylog, sf,
                                       tp, ty, tplog, tylog, tf, pt, yt)
            self.opt.zero_grad()
            loss.backward()
            torch.nn.utils.clip_grad_norm_(self.student.parameters(), 1.0)
            self.opt.step()
            for k, v in ld.items(): losses[k] += v
            n += 1
            if bi % 100 == 0:
                print(f"Epoch {epoch} | Batch {bi} | " + " | ".join(f"{k}={v:.4f}" for k, v in ld.items()))
                if HAS_TRACKIO:
                    for k2, v2 in ld.items(): trackio.log({f"train/{k2}": v2})
        return {k: v/n for k, v in losses.items()}

    @torch.no_grad()
    def validate(self, epoch):
        self.student.eval()
        self.teacher.eval()
        losses = defaultdict(float)
        ae, pe, ye = [], [], []
        n = 0
        for batch in self.val_loader:
            le = batch['left_eye'].to(self.device)
            re = batch['right_eye'].to(self.device)
            fb = batch['face_blurred_gray'].to(self.device)
            fg = batch['face_gray'].to(self.device)
            pt = batch['pitch'].to(self.device)
            yt = batch['yaw'].to(self.device)
            tp, ty, tplog, tylog, tf = self.teacher(le, re, fb)
            sp, sy, sf = self.student(fg)
            splog = self.student.pitch_head(sf)
            sylog = self.student.yaw_head(sf)
            loss, ld = self.dist_loss(sp, sy, splog, sylog, sf,
                                       tp, ty, tplog, tylog, tf, pt, yt)
            for k, v in ld.items(): losses[k] += v
            n += 1
            aerr = torch.sqrt((sp-pt)**2 + (sy-yt)**2)
            ae.extend(aerr.cpu().tolist())
            pe.extend((sp-pt).abs().cpu().tolist())
            ye.extend((sy-yt).abs().cpu().tolist())
        for k in losses: losses[k] /= n
        losses['angular_mean'] = np.mean(ae)
        losses['angular_std'] = np.std(ae)
        losses['pitch_mean'] = np.mean(pe)
        losses['yaw_mean'] = np.mean(ye)
        return dict(losses)

    def train(self, save_dir="./checkpoints"):
        os.makedirs(save_dir, exist_ok=True)
        print(f"Distillation: {self.epochs} epochs | Student: {count_parameters(self.student):,} params")
        t0 = time.time()
        for epoch in range(self.epochs):
            te = time.time()
            tl = self.train_epoch(epoch)
            vl = self.validate(epoch)
            self.sched.step()
            lr = self.opt.param_groups[0]['lr']
            print(f"\n{'='*60}")
            print(f"Epoch {epoch}: train={tl.get('loss_total',0):.4f} val={vl.get('loss_total',0):.4f} angular={vl.get('angular_mean',0):.2f}deg")
            print(f"{'='*60}\n")
            for k, v in tl.items(): self.metrics[f'train_{k}'].append(v)
            for k, v in vl.items(): self.metrics[f'val_{k}'].append(v)
            vt = vl.get('loss_total', vl.get('angular_mean', float('inf')))
            if vt < self.best_val:
                self.best_val = vt
                self.best_epoch = epoch
                torch.save({'epoch': epoch, 'student_state_dict': self.student.state_dict(),
                            'opt_state_dict': self.opt.state_dict(), 'best_val': self.best_val,
                            'metrics': dict(self.metrics)}, os.path.join(save_dir, 'student_best.pt'))
                if HAS_TRACKIO: trackio.alert("New Best", f"Val {vt:.4f} @ epoch {epoch}", level="INFO")
            if epoch % 10 == 0:
                torch.save({'epoch': epoch, 'student_state_dict': self.student.state_dict(),
                            'opt_state_dict': self.opt.state_dict()},
                           os.path.join(save_dir, f'student_epoch_{epoch}.pt'))
            print(f"Epoch {epoch} took {time.time()-te:.1f}s, LR={lr:.2e}")
        print(f"\nDone! Best val: {self.best_val:.4f} @ epoch {self.best_epoch}")
        return self.best_val


def pretrain_teacher(teacher, train_loader, val_loader, device, lr=1e-4, epochs=50, save_dir="./checkpoints"):
    teacher = teacher.to(device)
    opt = AdamW(teacher.parameters(), lr=lr, weight_decay=1e-4)
    sched = CosineAnnealingLR(opt, T_max=epochs, eta_min=lr*0.01)
    ploss = L2CSLoss(gaze_bins=90)
    yloss = L2CSLoss(gaze_bins=90)
    aloss = AngularLoss()
    best = float('inf')
    os.makedirs(save_dir, exist_ok=True)
    for epoch in range(epochs):
        teacher.train()
        tloss = 0.0
        for batch in train_loader:
            le = batch['left_eye'].to(device)
            re = batch['right_eye'].to(device)
            fb = batch['face_blurred_gray'].to(device)
            pt = batch['pitch'].to(device)
            yt = batch['yaw'].to(device)
            pp, yp, pl, yl, _ = teacher(le, re, fb)
            loss = ploss(pl, pp, pt) + yloss(yl, yp, yt) + aloss(pp, yp, pt, yt)
            opt.zero_grad()
            loss.backward()
            torch.nn.utils.clip_grad_norm_(teacher.parameters(), 1.0)
            opt.step()
            tloss += loss.item()
        tloss /= len(train_loader)
        teacher.eval()
        vloss = 0.0
        va = 0.0
        with torch.no_grad():
            for batch in val_loader:
                le = batch['left_eye'].to(device)
                re = batch['right_eye'].to(device)
                fb = batch['face_blurred_gray'].to(device)
                pt = batch['pitch'].to(device)
                yt = batch['yaw'].to(device)
                pp, yp, pl, yl, _ = teacher(le, re, fb)
                vloss += (ploss(pl, pp, pt) + yloss(yl, yp, yt)).item()
                va += torch.sqrt((pp-pt)**2 + (yp-yt)**2).mean().item()
        vloss /= len(val_loader)
        va /= len(val_loader)
        sched.step()
        print(f"Teacher Epoch {epoch}: train={tloss:.4f} val={vloss:.4f} angular={va:.2f}deg")
        if vloss < best:
            best = vloss
            torch.save(teacher.state_dict(), os.path.join(save_dir, 'teacher_best.pt'))
    return os.path.join(save_dir, 'teacher_best.pt')


def main():
    p = argparse.ArgumentParser(description="PriviGaze Training")
    p.add_argument('--mode', type=str, default='distill', choices=['pretrain_teacher','distill','both'])
    p.add_argument('--teacher-path', type=str, default=None)
    p.add_argument('--batch-size', type=int, default=32)
    p.add_argument('--epochs', type=int, default=100)
    p.add_argument('--teacher-epochs', type=int, default=50)
    p.add_argument('--lr', type=float, default=1e-4)
    p.add_argument('--weight-decay', type=float, default=1e-4)
    p.add_argument('--num-train', type=int, default=40000)
    p.add_argument('--num-val', type=int, default=5000)
    p.add_argument('--save-dir', type=str, default='./checkpoints')
    p.add_argument('--device', type=str, default='cuda')
    p.add_argument('--trackio-project', type=str, default='privi-gaze')
    p.add_argument('--trackio-run', type=str, default='distill-run')
    p.add_argument('--push-to-hub', action='store_true')
    p.add_argument('--hub-model-id', type=str, default=None)
    p.add_argument('--alpha-contrastive', type=float, default=0.5)
    p.add_argument('--alpha-mmd', type=float, default=0.1)
    p.add_argument('--alpha-logit', type=float, default=0.5)
    args = p.parse_args()

    device = torch.device(args.device if torch.cuda.is_available() else 'cpu')
    print(f"Device: {device}")
    train_loader, val_loader, test_loader = create_dataloaders(
        num_train=args.num_train, num_val=args.num_val, batch_size=args.batch_size)

    teacher = PriviGazeTeacher()
    student = PriviGazeStudent()
    print(f"Teacher: {count_parameters(teacher):,} params")
    print(f"Student: {count_parameters(student):,} params")

    if args.mode in ['pretrain_teacher', 'both']:
        print("\n=== Phase 1: Teacher Pre-training ===")
        tp = pretrain_teacher(teacher, train_loader, val_loader, device,
                              lr=args.lr, epochs=args.teacher_epochs, save_dir=args.save_dir)
        args.teacher_path = tp

    if args.teacher_path:
        print(f"\nLoading teacher: {args.teacher_path}")
        teacher.load_state_dict(torch.load(args.teacher_path, map_location=device))

    if args.mode in ['distill', 'both']:
        print("\n=== Phase 2: Distillation ===")
        dloss = PriviGazeDistillationLoss(
            gaze_bins=90, teacher_feature_dim=256, student_feature_dim=128,
            alpha_contrastive=args.alpha_contrastive, alpha_mmd=args.alpha_mmd,
            alpha_logit=args.alpha_logit)
        trainer = DistillationTrainer(teacher, student, dloss, train_loader, val_loader,
            device, lr=args.lr, wd=args.weight_decay, epochs=args.epochs,
            tproj=args.trackio_project, trun=args.trackio_run)
        trainer.train(save_dir=args.save_dir)

        print("\n=== Test ===")
        student.eval().to(device)
        terr = []
        with torch.no_grad():
            for batch in test_loader:
                fg = batch['face_gray'].to(device)
                pt = batch['pitch'].to(device)
                yt = batch['yaw'].to(device)
                sp, sy, _ = student(fg)
                terr.extend(torch.sqrt((sp-pt)**2 + (sy-yt)**2).cpu().tolist())
        me = np.mean(terr); se = np.std(terr)
        print(f"Test Angular Error: {me:.2f}deg +- {se:.2f}deg")

        if args.push_to_hub and args.hub_model_id:
            from huggingface_hub import HfApi
            mp = os.path.join(args.save_dir, 'student_final.pt')
            torch.save({'student_state_dict': student.state_dict(),
                        'config': {'params': count_parameters(student), 'test_err': me}}, mp)
            HfApi().upload_file(path_or_fileobj=mp, path_in_repo="student_model.pt", repo_id=args.hub_model_id)
            print(f"Pushed to: https://huggingface.co/{args.hub_model_id}")

if __name__ == "__main__":
    main()