Spaces:

Zyriix
/

prologue-demo

Running on Zero

File size: 23,755 Bytes

500ee30

"""Class-conditional sampling and prologue-fix resampling for Prologue models.

Two modes:

    sample        Class-conditional generation grid (one row per class).
    prologue_fix  Sample a reference; freeze its first z_len prologue tokens
                  and resample the remaining visual tokens. Requires a Prologue
                  tokenizer (configs/tokenizer/prologue.yaml).

The functions below are also used as a library by `app.py` (Gradio demo).

CLI usage:

    python sample_vis.py --configs=configs/default.yaml,configs/ar/_defaults.yaml,\\
        configs/ar/xlarge.yaml,configs/tokenizer/default.yaml,\\
        configs/tokenizer/prologue.yaml,configs/train/ar.yaml,configs/train/eval_ar.yaml \\
        tokenizer_ckpt_path=<tok> resume_ckpt_path=<ar> \\
        mode=prologue_fix class_ids="207,388" num_resample=8 \\
        output_dir=out/

Module-internal attributes (``semantic_emb``, ``z_len``, ``semantic_drop``, ...) match
the released safetensors keys; "prologue" is the user-facing name everywhere else.
"""

import math
import os

import torch
import torch.nn.functional as F
import torchvision.utils
from safetensors.torch import load_file

from train_ar import (
    _codes_from_indices,
    _labels_from_label_idx,
    _load_decoder,
    _load_quantizer,
    _load_semantic_quantizer,
)
from models import ARModel
from utils import (
    build_ar_logit_mask,
    img_denormalize,
    load_config,
    print0,
    save_tensor_image_png_pdf,
    seed_everything,
    unpatchify,
)

torch.backends.cudnn.benchmark = True


IMAGENET_NAMES = {
    33: "loggerhead_turtle", 88: "macaw", 90: "lorikeet", 94: "hummingbird",
    100: "black_swan", 107: "jellyfish", 117: "chambered_nautilus", 130: "flamingo",
    144: "pelican", 146: "albatross", 207: "golden_retriever", 250: "Siberian_husky",
    259: "Pomeranian", 279: "arctic_fox", 281: "tabby_cat", 291: "lion",
    292: "tiger", 293: "cheetah", 295: "brown_bear", 323: "monarch_butterfly",
    340: "zebra", 360: "otter", 386: "African_elephant", 387: "red_panda",
    388: "giant_panda", 417: "balloon", 628: "liner", 817: "sports_car",
    927: "trifle", 928: "ice_cream", 930: "French_loaf", 933: "cheeseburger",
    934: "hotdog", 963: "pizza", 971: "bubble", 972: "cliff", 973: "coral_reef",
    978: "seashore", 979: "valley", 980: "volcano", 985: "daisy", 988: "acorn",
    996: "alp",
}

DEFAULT_CLASS_IDS = [
    207, 388, 387, 88, 130, 279, 417, 928,
    980, 973, 985, 33, 360, 250, 293, 323,
]


# ═══════════════════════════════════════════════════════════════════════════
# Model loading
# ═══════════════════════════════════════════════════════════════════════════

def load_models(config, device):
    """Return ``(quantizer, dec, prologue_quantizer, ar_model)``; prologue_quantizer is ``None`` for 1D/2D tokenizers."""
    prologue = (
        bool(config.get("Prologue", False))
        and not bool(config.get("share_semantic_codebook", False))
    )
    tok_ckpt = config.tokenizer_ckpt_path

    quantizer = _load_quantizer(config, ckpt_dir=tok_ckpt).to(device)
    dec = _load_decoder(config, ckpt_dir=tok_ckpt).to(device)

    prologue_quantizer = None
    if prologue:
        prologue_quantizer = _load_semantic_quantizer(
            config, ckpt_dir=tok_ckpt
        ).to(device)
        print0("Prologue: loaded prologue (semantic) quantizer")

    ar_model = ARModel(config)
    _logit_mask = build_ar_logit_mask(
        getattr(quantizer, "pos_select_mask", None),
        getattr(prologue_quantizer, "pos_select_mask", None) if prologue else None,
        vis_cb_size=int(config["Quantizer"]["codebook_size"]),
        sem_cb_size=int(config["SemanticQuantizer"]["codebook_size"]) if prologue else 0,
    )
    ar_model.set_logit_mask(_logit_mask)

    ema = bool(config.get("ema_sampling", False))

    if bool(config.get("continuous_training", False)) and tok_ckpt:
        # OneStage: AR weights live in the tokenizer ckpt as model_5/6.safetensors.
        path = os.path.join(tok_ckpt, "model_6.safetensors" if ema else "model_5.safetensors")
        if ema and not os.path.exists(path):
            path = os.path.join(tok_ckpt, "model_5.safetensors")
            print0("AR EMA not found, falling back to regular weights")
        print0(f"Loading AR weights (joint training): {path}")
        ar_model.load_state_dict(load_file(path), strict=True)
    elif getattr(config, "resume_ckpt_path", ""):
        ckpt = config.resume_ckpt_path
        fname = "model_1.safetensors" if ema else "model.safetensors"
        path = os.path.join(ckpt, fname)
        if ema and not os.path.exists(path):
            path = os.path.join(ckpt, "model.safetensors")
            print0("AR EMA not found, falling back to regular weights")
        print0(f"Loading AR weights: {path}")
        ar_model.load_state_dict(load_file(path), strict=False)
    else:
        raise ValueError(
            "Must provide resume_ckpt_path or "
            "(continuous_training=True + tokenizer_ckpt_path)"
        )

    ar_model.to(device).eval()
    print0(
        f"AR model ready  (z_len={ar_model.z_len}, "
        f"max_length={ar_model.max_length})"
    )
    return quantizer, dec, prologue_quantizer, ar_model


# ═══════════════════════════════════════════════════════════════════════════
# Sampling helpers
# ═══════════════════════════════════════════════════════════════════════════

def _cfg_params(config):
    """Pack every CFG-related field into a kwargs dict for ARModel.sampling."""
    get = config.get
    return dict(
        temperature=config.temperature,
        topK=config.topK,
        topP=config.topP,
        cfg=config.cfg,
        cfg_schedule=config.cfg_schedule,
        cfg_power=config.cfg_power,
        cache_kv=config.cache_kv,
        semantic_cfg=get("semantic_cfg", None),
        semantic_cfg_schedule=get("semantic_cfg_schedule", None),
        semantic_cfg_scale=get("semantic_cfg_scale", None),
        semantic_cfg_power=get("semantic_cfg_power", None),
        semantic_cfg_start=float(get("semantic_cfg_start", 0.0)),
        visual_cfg_schedule=get("visual_cfg_schedule", None),
        visual_cfg_scale=get("visual_cfg_scale", None),
        visual_cfg_power=get("visual_cfg_power", None),
        visual_cfg_start=float(get("visual_cfg_start", 1.0)),
        cfg_continuous=bool(get("cfg_continuous", False)),
        semantic_temperature=(
            float(get("semantic_temperature"))
            if get("semantic_temperature") is not None
            else None
        ),
    )


@torch.no_grad()
def sample_tokens(ar_model, *, bz, class_label, config):
    """Thin wrapper over ``ARModel.sampling``; returns token ids ``[bz, max_length]``."""
    get = config.get
    sem_temp = get("semantic_temperature")
    return ar_model.sampling(
        bz, class_label,
        config.temperature, config.topK, config.topP,
        config.cfg, config.cfg_schedule, config.cfg_power,
        config.cache_kv,
        semantic_cfg_schedule=get("semantic_cfg_schedule", None),
        semantic_cfg_scale=get("semantic_cfg_scale", None),
        semantic_cfg_power=get("semantic_cfg_power", None),
        semantic_cfg_start=float(get("semantic_cfg_start", 0.0)),
        visual_cfg_schedule=get("visual_cfg_schedule", None),
        visual_cfg_scale=get("visual_cfg_scale", None),
        visual_cfg_power=get("visual_cfg_power", None),
        visual_cfg_start=float(get("visual_cfg_start", 1.0)),
        semantic_temperature=float(sem_temp) if sem_temp is not None else None,
    )


def decode_tokens(quantizer, dec, token_ids, *, config, ae_label):
    """Decode token ids to images ``[B, 3, H, W]`` in [0, 1]."""
    prologue = (
        bool(config.get("Prologue", False))
        and not bool(config.get("share_semantic_codebook", False))
    )
    if prologue:
        z_len = int(config.z_len)
        eos_len = 1 if bool(config.get("use_eos", False)) and z_len > 0 else 0
        visual_ids = token_ids[:, z_len + eos_len:]
        quant = _codes_from_indices(quantizer, visual_ids, ae_label)
    else:
        quant = _codes_from_indices(quantizer, token_ids, ae_label)
    patches = dec(quant, ae_label)
    return img_denormalize(unpatchify(patches, config.image_size, config.patch_size))


def _make_labels(class_id, bz, num_classes, device):
    """Build ``(class_label, unconditional_label)`` each ``[bz, num_classes]``."""
    uncond_idx = num_classes - 1
    idx = torch.full((bz,), class_id, device=device, dtype=torch.long)
    cls = _labels_from_label_idx(idx, num_classes=num_classes, uncond_idx=uncond_idx)
    uncond_idx_t = torch.full((bz,), uncond_idx, device=device, dtype=torch.long)
    ae = _labels_from_label_idx(uncond_idx_t, num_classes=num_classes, uncond_idx=uncond_idx)
    return cls, ae


# ═══════════════════════════════════════════════════════════════════════════
# Prologue-fix sampling (teacher-force masked prologue positions)
# ═══════════════════════════════════════════════════════════════════════════

@torch.no_grad()
@torch._dynamo.disable
def sampling_with_fixed_prologue(ar_model, *, bz, class_label, config,
                                 fixed_prologue_ids, n_fix=None, fix_mask=None):
    """AR sample with selected prologue positions teacher-forced (``fix_mask`` overrides ``n_fix``)."""
    m = ar_model
    z_len = m.z_len
    if z_len <= 0:
        raise ValueError("sampling_with_fixed_prologue requires a Prologue tokenizer (z_len > 0)")
    fixed = fixed_prologue_ids.expand(bz, -1)

    if fix_mask is None:
        n = n_fix if n_fix is not None else z_len
        fix_mask = torch.zeros(z_len, dtype=torch.bool, device=fixed.device)
        fix_mask[:n] = True

    p = _cfg_params(config)
    cfg_val       = 0.0 if class_label is None else p["cfg"]
    cfg_schedule  = p["cfg_schedule"]
    cfg_power     = p["cfg_power"]
    temperature   = p["temperature"]
    topK          = p["topK"]
    topP          = p["topP"]
    cache_kv      = p["cache_kv"]
    sem_cfg       = p["semantic_cfg"]
    sem_cfg_sched = p["semantic_cfg_schedule"]
    sem_cfg_scale = p["semantic_cfg_scale"]
    sem_cfg_pow   = p["semantic_cfg_power"]
    sem_cfg_start = p["semantic_cfg_start"]
    vis_cfg_sched = p["visual_cfg_schedule"]
    vis_cfg_scale = p["visual_cfg_scale"]
    vis_cfg_pow   = p["visual_cfg_power"]
    vis_cfg_start = p["visual_cfg_start"]
    cfg_cont      = p["cfg_continuous"]
    sem_temp      = p["semantic_temperature"]

    use_seg = sem_cfg_sched is not None or vis_cfg_sched is not None
    use_cfg = cfg_val > 0.0 or (sem_cfg is not None and sem_cfg > 0.0)
    if use_seg:
        _ss = sem_cfg_scale if sem_cfg_scale is not None else cfg_val
        _vs = vis_cfg_scale if vis_cfg_scale is not None else cfg_val
        use_cfg = _ss > 0.0 or _vs > 0.0

    uncond_idx = int(m.ar_model.cond_input_dim) - 1
    device = m.bos_emb.weight.device

    if m.conditional_injection == "llamagen":
        cond_bos = m.bos_emb(torch.argmax(class_label, dim=1)).unsqueeze(1)
        uncond_bos = m.bos_emb(
            torch.full((bz,), uncond_idx, device=device, dtype=torch.long)
        ).unsqueeze(1)
        ar_labels = m.uncond_ar_labels.expand(bz, -1).to(device=device)
        uncond_labels = m.uncond_ar_labels.expand(bz, -1).to(device=device)
    else:
        cond_bos = m.bos_emb(
            torch.zeros(bz, device=device, dtype=torch.long)
        ).unsqueeze(1)
        uncond_bos = cond_bos
        ar_labels = class_label
        uncond_labels = m.uncond_ar_labels.expand(bz, -1).to(device=device)

    quant_input = (
        torch.cat([cond_bos, uncond_bos], dim=0) if use_cfg else cond_bos
    )
    ar_labels_2x = (
        torch.cat([ar_labels, uncond_labels], dim=0) if use_cfg else ar_labels
    )
    quant_output = []
    past_kvs = None

    for step in range(m.max_length):
        is_sem = z_len > 0 and step < z_len

        if use_cfg:
            ar_out = m.ar_model(quant_input, ar_labels_2x, cache_kv=cache_kv, past_kvs=past_kvs)
            hidden_all, past_kvs = ar_out if cache_kv else (ar_out, None)
            if m.tied_embedding:
                hidden_all = F.linear(hidden_all[:, -1:], m.semantic_emb.weight)
            logits_all = hidden_all[:, -1]
            logits, uncond_logits = logits_all.chunk(2, dim=0)

            # Scheduled CFG strength c(step), identical to ARModel.sampling.
            if use_seg:
                if is_sem:
                    sc = sem_cfg_sched or "constant"
                    ss = sem_cfg_scale if sem_cfg_scale is not None else cfg_val
                    sp = sem_cfg_pow if sem_cfg_pow is not None else cfg_power
                    s0 = sem_cfg_start
                    st = step / z_len if z_len > 0 else 0.0
                else:
                    sc = vis_cfg_sched or "constant"
                    ss = vis_cfg_scale if vis_cfg_scale is not None else cfg_val
                    sp = vis_cfg_pow if vis_cfg_pow is not None else cfg_power
                    s0 = (
                        (sem_cfg_scale if sem_cfg_scale is not None else cfg_val)
                        if cfg_cont else vis_cfg_start
                    )
                    vl = m.max_length - z_len
                    st = (step - z_len) / vl if vl > 0 else 0.0
                if sc == "constant":
                    c = ss
                elif sc == "linear":
                    c = s0 + (ss - s0) * st
                elif sc == "cosine":
                    c = s0 + (ss - s0) * (1 - math.cos((st ** sp) * math.pi)) * 0.5
                else:
                    raise ValueError(sc)
            elif cfg_schedule == "constant" and is_sem and sem_cfg is not None:
                c = sem_cfg
            elif cfg_schedule == "constant":
                c = cfg_val
            elif cfg_schedule == "linear":
                c = 1.0 * (1 - step / m.max_length) + cfg_val * (step / m.max_length)
            elif cfg_schedule == "cosine":
                c = (1 - math.cos(((step / m.max_length) ** cfg_power) * math.pi)) * 0.5
                c = (cfg_val - 1) * c + 1
            else:
                raise ValueError(cfg_schedule)

            logits = c * logits + (1 - c) * uncond_logits
        else:
            ar_out = m.ar_model(quant_input, ar_labels_2x, cache_kv=cache_kv, past_kvs=past_kvs)
            hidden, past_kvs = ar_out if cache_kv else (ar_out, None)
            if m.tied_embedding:
                hidden = F.linear(hidden[:, -1:], m.semantic_emb.weight)
            logits = hidden[:, -1]

        t = sem_temp if (sem_temp is not None and is_sem) else temperature
        logits = logits / t

        if m.logit_mask is not None:
            logits = logits + m.logit_mask[step]

        if topK is not None and topK > 0.0:
            tl, ti = logits.topk(int(topK), dim=-1)
            logits = torch.full_like(logits, float("-inf"))
            logits.scatter_(dim=-1, index=ti, src=tl)

        if topP is not None and 0.0 < topP < 1.0:
            sl, si = torch.sort(logits, dim=-1, descending=True)
            ps = sl.softmax(dim=-1).cumsum(dim=-1)
            mask = ps > topP
            mask[..., 1:] = mask[..., :-1].clone()
            mask[..., 0] = False
            sl[mask] = float("-inf")
            logits = torch.full_like(logits, float("-inf"))
            logits.scatter_(dim=-1, index=si, src=sl)

        if step < z_len and fix_mask[step]:
            next_idx = fixed[:, step : step + 1]
        else:
            with torch.amp.autocast("cuda", enabled=False):
                next_idx = torch.multinomial(F.softmax(logits.float(), dim=-1), 1)
            next_idx = next_idx.to(dtype=torch.long)

        quant_output.append(next_idx)

        next_emb = m.semantic_emb(next_idx)
        if use_cfg:
            # semantic_drop branch kept for legacy ckpts; default = symmetric uncond.
            if getattr(m, "semantic_drop", False) and is_sem:
                uncond_sem = torch.full_like(next_idx, m.uncond_sem_token_id)
                uncond_emb = m.semantic_emb(uncond_sem)
                next_emb = torch.cat([next_emb, uncond_emb], dim=0)
            else:
                next_emb = torch.cat([next_emb, next_emb], dim=0)

        if not cache_kv:
            quant_input = torch.cat((quant_input, next_emb), dim=1)
        else:
            quant_input = next_emb

    return torch.cat(quant_output, dim=1)


# ═══════════════════════════════════════════════════════════════════════════
# CLI mode implementations
# ═══════════════════════════════════════════════════════════════════════════

def mode_sample(quantizer, dec, ar_model, *, config, class_ids, num_per_class,
                output_dir, device):
    """One row per class, ``num_per_class`` independent samples."""
    num_classes = int(config.num_classes)
    ae_no_label = bool(config.get("ae_no_label", False))

    all_imgs = []
    for cid in class_ids:
        name = IMAGENET_NAMES.get(cid, f"class{cid}")
        print0(f"  Sampling class {cid} ({name}) -> {num_per_class} ...")
        cls_lbl, uncond_lbl = _make_labels(cid, num_per_class, num_classes, device)
        ae_lbl = uncond_lbl if ae_no_label else cls_lbl

        token_ids = sample_tokens(ar_model, bz=num_per_class,
                                  class_label=cls_lbl, config=config)
        imgs = decode_tokens(quantizer, dec, token_ids,
                             config=config, ae_label=ae_lbl)
        all_imgs.append(imgs)

        grid = torchvision.utils.make_grid(imgs, nrow=num_per_class, padding=2)
        out = os.path.join(output_dir, f"class_{cid}_{name}.png")
        save_tensor_image_png_pdf(grid, out)
        print0(f"    -> {out} (+ .pdf)")

    combined = torch.cat(all_imgs, dim=0)
    grid = torchvision.utils.make_grid(combined, nrow=num_per_class, padding=2)
    out = os.path.join(output_dir, "sample_grid.png")
    save_tensor_image_png_pdf(grid, out)
    print0(f"  Combined grid -> {out} (+ .pdf)")


def mode_prologue_fix(quantizer, dec, ar_model, *, config, class_ids,
                      num_resample, num_prologue_sets, output_dir, device):
    """Per class: ``num_prologue_sets`` refs × ``num_resample`` visuals with fixed prologue prefix."""
    prologue = (
        bool(config.get("Prologue", False))
        and not bool(config.get("share_semantic_codebook", False))
    )
    if not prologue:
        raise ValueError(
            "prologue_fix mode requires a Prologue tokenizer "
            "(Prologue=True, share_semantic_codebook=False)"
        )

    num_classes = int(config.num_classes)
    ae_no_label = bool(config.get("ae_no_label", False))
    z_len = ar_model.z_len

    all_class_imgs = []
    for cid in class_ids:
        name = IMAGENET_NAMES.get(cid, f"class{cid}")
        print0(f"  Prologue-fix: class {cid} ({name}), "
               f"{num_prologue_sets} set(s) -> {num_resample} visual resamples ...")

        cls_lbl_1, uncond_lbl_1 = _make_labels(cid, 1, num_classes, device)
        cls_lbl_n, uncond_lbl_n = _make_labels(cid, num_resample, num_classes, device)
        ae_lbl_n = uncond_lbl_n if ae_no_label else cls_lbl_n

        rows = []
        for _ in range(num_prologue_sets):
            token_ids = sample_tokens(ar_model, bz=1,
                                      class_label=cls_lbl_1, config=config)
            prologue_ids = token_ids[:, :z_len]

            resampled = sampling_with_fixed_prologue(
                ar_model, bz=num_resample, class_label=cls_lbl_n,
                config=config, fixed_prologue_ids=prologue_ids,
            )
            imgs = decode_tokens(quantizer, dec, resampled,
                                 config=config, ae_label=ae_lbl_n)
            rows.append(imgs)

        grid_imgs = torch.cat(rows, dim=0)
        all_class_imgs.append(grid_imgs)
        grid = torchvision.utils.make_grid(grid_imgs, nrow=num_resample, padding=2)
        out = os.path.join(output_dir, f"prologue_fix_{cid}_{name}.png")
        save_tensor_image_png_pdf(grid, out)
        print0(f"    -> {out} (+ .pdf)")

    combined = torch.cat(all_class_imgs, dim=0)
    grid = torchvision.utils.make_grid(combined, nrow=num_resample, padding=2)
    out = os.path.join(output_dir, "all_prologue_fix.png")
    save_tensor_image_png_pdf(grid, out)
    print0(f"  Combined grid -> {out} (+ .pdf)")


# ═══════════════════════════════════════════════════════════════════════════
# Main
# ═══════════════════════════════════════════════════════════════════════════

def main():
    config = load_config()
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

    if config.get("use_tf32", True):
        torch.backends.cuda.matmul.allow_tf32 = True
        torch.backends.cudnn.allow_tf32 = True

    seed = int(config.get("seed", 42))
    seed_everything(seed)
    torch.cuda.manual_seed(seed)

    mode = str(config.get("mode", "sample"))
    output_dir = str(config.get("output_dir", "sample_vis_output"))
    os.makedirs(output_dir, exist_ok=True)

    raw_ids = str(config.get("class_ids", ""))
    class_ids = (
        [int(x.strip()) for x in raw_ids.split(",") if x.strip()]
        if raw_ids else DEFAULT_CLASS_IDS
    )

    print0(f"Mode        : {mode}")
    print0(f"Class IDs   : {class_ids}")
    print0(f"Output dir  : {output_dir}")
    print0(f"Seed        : {seed}")

    quantizer, dec, _, ar_model = load_models(config, device)

    if mode == "sample":
        num_per_class = int(config.get("num_per_class", 8))
        mode_sample(quantizer, dec, ar_model, config=config,
                    class_ids=class_ids, num_per_class=num_per_class,
                    output_dir=output_dir, device=device)
    elif mode == "prologue_fix":
        num_resample = int(config.get("num_resample", 8))
        num_prologue_sets = int(config.get("num_prologue_sets", 1))
        mode_prologue_fix(quantizer, dec, ar_model, config=config,
                          class_ids=class_ids, num_resample=num_resample,
                          num_prologue_sets=num_prologue_sets,
                          output_dir=output_dir, device=device)
    else:
        raise ValueError(
            f"Unknown mode: {mode!r}  (expected 'sample' or 'prologue_fix')"
        )

    print0("Done.")


if __name__ == "__main__":
    main()