code_SAS_VLM2Vec / eval_test_time_early_exit.py

Add files using upload-large-folder tool

2a40e7a verified 2 months ago

138 kB

	# import datetime
	# import logging
	# import json
	# import random
	# import time
	# import numpy as np
	# import os
	# import pickle
	# import sys
	# import torch
	# import torch.distributed as dist
	# import torch.nn.functional as F
	# import yaml
	# import transformers
	# import math

	# from torch.utils.data import DataLoader
	# from tqdm import tqdm
	# from transformers import HfArgumentParser, AutoConfig, AutoTokenizer
	# from datasets import Dataset, concatenate_datasets
	# from datasets.distributed import split_dataset_by_node
	# from src.model.vlm_backbone.qwen2_vl.modeling_qwen2_vl_train_tokrnpooling import Qwen2VLForConditionalGeneration as _Qwen2VLForConditionalGeneration_src

	# from src.arguments import ModelArguments, DataArguments, TrainingArguments
	# from src.data.collator.eval_collator import MultimodalEvalDataCollator
	# from src.data.eval_dataset.base_eval_dataset import AutoEvalPairDataset, generate_cand_dataset
	# from src.eval_utils.metrics import RankingMetrics
	# from src.model.model_cut_layer_AOP_add_text_cut import MMEBModel
	# from src.model.processor import get_backbone_name, load_processor, COLPALI
	# from src.utils import batch_to_device, print_rank, print_master

	# from dataclasses import dataclass

	# def get_env_mid_layer():
	# v = os.environ.get("MID_LM_LAYER", "").strip()
	# if v == "" or v.lower() in {"none", "null"}:
	# return None
	# try:
	# return int(v)
	# except:
	# logger.warning(f"Invalid MID_LM_LAYER={v}, ignore.")
	# return None

	# # ------------- AOP-Prune config parsing -------------
	# def _parse_bool(v: str, default=False):
	# if v is None: return default
	# v = v.strip().lower()
	# return v in {"1","true","yes","y","t","on"}

	# def _parse_float(v: str, default=None):
	# try: return float(v) if v is not None else default
	# except: return default

	# def _parse_int(v: str, default=None):
	# try: return int(v) if v is not None else default
	# except: return default

	# def get_env_aop_config():
	# """
	# 从环境变量读取 AOP 剪裁配置。仅作为“驱动层”的简要测试开关；
	# 实际剪裁逻辑在底模里（Qwen2-VLModel.forward）实现。
	# """
	# enabled = _parse_bool(os.environ.get("AOP_ENABLED"), False)
	# apply_to = os.environ.get("AOP_APPLY", "qry").strip().lower() # qry\|cand\|both
	# layer_idx = _parse_int(os.environ.get("AOP_LAYER"), None)
	# mode = os.environ.get("AOP_MODE", "delta").strip().lower()

	# # 通用回退
	# delta = _parse_float(os.environ.get("AOP_DELTA"), 0.10)
	# khat = _parse_float(os.environ.get("AOP_KHAT"), 1.0)
	# keep_ratio = _parse_float(os.environ.get("AOP_KEEP_RATIO"), 1.0)
	# min_keep = _parse_int(os.environ.get("AOP_MIN_KEEP"), 64)
	# use_bias = _parse_bool(os.environ.get("AOP_USE_BIAS"), True)

	# # 按类型控制
	# prune_vision = _parse_bool(os.environ.get("AOP_PRUNE_VISION"), True)
	# prune_text = _parse_bool(os.environ.get("AOP_PRUNE_TEXT"), False)

	# delta_v = _parse_float(os.environ.get("AOP_DELTA_VISION"), None)
	# khat_v = _parse_float(os.environ.get("AOP_KHAT_VISION"), None)
	# keep_ratio_v= _parse_float(os.environ.get("AOP_KEEP_RATIO_VISION"), None)
	# min_keep_v = _parse_int(os.environ.get("AOP_MIN_KEEP_VISION"), None)

	# delta_t = _parse_float(os.environ.get("AOP_DELTA_TEXT"), None)
	# khat_t = _parse_float(os.environ.get("AOP_KHAT_TEXT"), None)
	# keep_ratio_t= _parse_float(os.environ.get("AOP_KEEP_RATIO_TEXT"), None)
	# min_keep_t = _parse_int(os.environ.get("AOP_MIN_KEEP_TEXT"), 32)

	# protect_text_last = _parse_int(os.environ.get("AOP_PROTECT_TEXT_LAST"), 16)
	# protect_special = _parse_bool(os.environ.get("AOP_PROTECT_SPECIAL"), True)

	# margin_src = os.environ.get("AOP_MARGIN", "").strip().lower() # "" or "mid"
	# attn_impl = os.environ.get("AOP_ATTN_IMPL", "").strip().lower() # "" or "sdpa"

	# if layer_idx is None and enabled:
	# logger.warning("AOP_ENABLED=1 但未设置 AOP_LAYER，关闭 AOP。"); enabled=False

	# # 新增：选择策略（aop \| random）
	# selection = os.environ.get("AOP_SELECTION", "aop").strip().lower()
	# if _parse_bool(os.environ.get("AOP_RANDOM"), False):
	# selection = "random"
	# random_seed = _parse_int(os.environ.get("AOP_RANDOM_SEED"), None)

	# # 选择策略：aop \| random \| attention
	# selection = os.environ.get("AOP_SELECTION", "aop").strip().lower()
	# if _parse_bool(os.environ.get("AOP_RANDOM"), False):
	# selection = "random"
	# random_seed = _parse_int(os.environ.get("AOP_RANDOM_SEED"), None)
	# attn_agg = os.environ.get("AOP_ATTENTION_AGG", "mean").strip().lower() # mean\|max\|sum

	# cfg = {
	# "enabled": enabled,
	# "apply_to": apply_to,
	# "layer_idx": layer_idx,
	# "mode": mode,

	# # 回退
	# "delta": delta, "K_hat": khat,
	# "keep_ratio": keep_ratio, "min_keep": min_keep,
	# "use_bias": use_bias, "eps": 1e-6,

	# # 类型开关
	# "prune_vision": prune_vision,
	# "prune_text": prune_text,

	# # 视觉桶
	# "delta_vision": delta_v,
	# "K_hat_vision": khat_v,
	# "keep_ratio_vision": keep_ratio_v,
	# "min_keep_vision": min_keep_v,

	# # 文本桶
	# "delta_text": delta_t,
	# "K_hat_text": khat_t,
	# "keep_ratio_text": keep_ratio_t,
	# "min_keep_text": min_keep_t,

	# # 文本保护
	# "protect_text_last": protect_text_last,
	# "protect_special": protect_special,

	# # 可选：排名安全预算
	# "margin_mid": None if margin_src != "mid" else "USE_MID_MARGIN",
	# "epsilon_hat": None,
	# "attn_impl_override": attn_impl if attn_impl in {"sdpa"} else "",

	# # NEW: 选择策略
	# "selection": selection, # "aop" 或 "random"
	# "random_seed": random_seed, # 可选
	# "attn_agg": attn_agg,
	# }
	# return cfg

	# def get_env_eval_layers():
	# """
	# 解析环境变量 LM_LAYERS（优先）或兼容旧的 MID_LM_LAYER。
	# - LM_LAYERS 示例："4,8,12,last"；可包含 'last'/'none'/'null'/'-1' 表示最后一层(None)。
	# - 若未设置 LM_LAYERS，则回落到旧逻辑：MID_LM_LAYER=None -> [None]；否则 [mid, None]
	# 返回: list[ int \| None ]，例如 [4, 8, 12, None]；None 代表最后一层。
	# """
	# v = os.environ.get("LM_LAYERS", None)
	# if v is not None:
	# v = v.strip()

	# if v:
	# toks = [t.strip() for t in v.split(',') if t.strip() != ""]
	# layers = []
	# for tok in toks:
	# tl = tok.lower()
	# if tl in {"last", "none", "null", "-1"}:
	# layers.append(None)
	# else:
	# try:
	# val = int(tok)
	# if val > 0:
	# layers.append(val)
	# else:
	# logger.warning(f"Ignoring non-positive layer '{tok}' in LM_LAYERS.")
	# except Exception:
	# logger.warning(f"Invalid token '{tok}' in LM_LAYERS; must be int or 'last'/'none'.")
	# # 去重但保持顺序
	# seen = set()
	# uniq = []
	# for l in layers:
	# key = -1 if l is None else l
	# if key in seen:
	# continue
	# seen.add(key)
	# uniq.append(l)
	# if not uniq:
	# return [None]
	# return uniq
	# else:
	# # 兼容旧逻辑
	# mid = get_env_mid_layer()
	# return [None] if mid is None else [mid, None]

	# # === Early-Exit config & helpers ===
	# def get_env_ee_config():
	# ee_enabled = os.environ.get("EE_ENABLED", "0").strip().lower() in {"1","true","yes","on","y","t"}
	# layer = int(os.environ.get("EE_LAYER", os.environ.get("AOP_LAYER", "12"))) # 默认用 AOP_LAYER
	# method = os.environ.get("EE_METHOD", "margin").strip().lower() # margin\|p1p2\|entropy\|gini\|combined
	# tau = float(os.environ.get("EE_TAU", "0.2"))
	# topk = int(os.environ.get("EE_TOPK", "1024"))
	# temp = float(os.environ.get("EE_TEMP", "0.05"))
	# save = os.environ.get("EE_SAVE", "1").strip().lower() in {"1","true","yes","on","y","t"}
	# combw = os.environ.get("EE_COMB_WEIGHTS", "1.0,0.5,0.5")
	# try:
	# w_margin, w_conf, w_sq = [float(x) for x in combw.split(",")]
	# except Exception:
	# w_margin, w_conf, w_sq = 1.0, 0.5, 0.5
	# return dict(
	# enabled=ee_enabled, layer=layer, method=method, tau=tau,
	# topk=topk, temp=temp, save=save,
	# w_margin=w_margin, w_conf=w_conf, w_sq=w_sq
	# )

	# def _softmax_np(x: np.ndarray, temp: float = 1.0) -> np.ndarray:
	# x = x - np.max(x)
	# ex = np.exp(x / max(1e-6, temp))
	# s = np.sum(ex)
	# return ex / max(s, 1e-12)

	# def confidence_from_topk(scores: np.ndarray, method="margin", temp=0.05, w_margin=1.0, w_conf=0.5, w_sq=0.5) -> float:
	# # scores: 已按降序排列（topK）
	# if scores.size == 0:
	# return 0.0
	# if scores.size == 1:
	# return 1e9
	# margin = float(scores[0] - scores[1])
	# p = _softmax_np(scores, temp=temp)
	# p1p2 = float(p[0] - p[1])
	# H = - float(np.sum(p * np.log(p + 1e-12))) / np.log(len(p)) # 归一化熵 ∈ [0,1]
	# conf = 1.0 - H
	# sqsum = float(np.sum(p**2)) # Gini 的等价度量（越大越集中）
	# if method == "margin": return margin
	# if method == "p1p2": return p1p2
	# if method == "entropy": return conf
	# if method == "gini": return sqsum
	# # combined
	# return w_marginmargin + w_confconf + w_sq*sqsum

	# def run_early_exit_queries(
	# model: MMEBModel,
	# processor,
	# model_args: ModelArguments,
	# data_args: DataArguments,
	# training_args: TrainingArguments,
	# qry_dataset: Dataset,
	# cand_mid_dict: dict,
	# cand_last_dict: dict,
	# ee_cfg: dict,
	# dataset_name: str,
	# out_dir: str,
	# global_ranking: bool = True,
	# ):
	# device = training_args.device
	# local_rank = dist.get_rank() if dist.is_initialized() else 0
	# is_main = (not dist.is_initialized()) or (local_rank == 0)

	# # 候选矩阵 -> GPU（bfloat16）
	# cand_ids = list(cand_mid_dict.keys())
	# cand_id2row = {str(cid): i for i, cid in enumerate(cand_ids)}
	# # cand_mid = np.stack([cand_mid_dict[c] for c in cand_ids]).astype(np.float32)
	# # cand_last = np.stack([cand_last_dict[c] for c in cand_ids]).astype(np.float32)
	# # cand_mid_t = torch.from_numpy(cand_mid).to(device=device, dtype=torch.bfloat16)
	# # cand_last_t = torch.from_numpy(cand_last).to(device=device, dtype=torch.bfloat16)
	# cand_mid = np.stack([cand_mid_dict[c] for c in cand_ids]).astype(np.float32)
	# cand_last = np.stack([cand_last_dict[c] for c in cand_ids]).astype(np.float32)

	# # 先搬 cand_mid 到 GPU；cand_last 延迟到真的需要续跑时再搬
	# cand_mid_t = torch.from_numpy(cand_mid).to(device=device, dtype=torch.bfloat16)
	# cand_last_t = None # NEW: 延迟到 need_idx>0 分支内首次使用时再构造

	# # DataLoader（仅 query）
	# collator = MultimodalEvalDataCollator(processor, model_args, data_args, "qry")
	# loader = DataLoader(
	# qry_dataset,
	# batch_size=training_args.per_device_eval_batch_size,
	# collate_fn=collator,
	# num_workers=training_args.dataloader_num_workers
	# )

	# pred_dicts = []
	# details = []

	# # AOP 按侧门控（仅对 query 生效）
	# aop_cfg = getattr(model.encoder, "aop_prune_config", None)
	# _orig_enabled = None
	# side_enable = True
	# if isinstance(aop_cfg, dict) and aop_cfg:
	# _orig_enabled = aop_cfg.get("enabled", False)
	# apply_to = aop_cfg.get("apply_to", "qry")
	# side_enable = (apply_to == "both") or (apply_to == "qry")

	# # 门控用的 k（margin/p1p2 只需要 top2）
	# k_conf = 2
	# tau = float(ee_cfg["tau"])
	# method= ee_cfg["method"]
	# temp = float(ee_cfg["temp"])

	# start_time = time.time()
	# idx_global = 0

	# for inputs, infos in tqdm(loader, desc=f"[EE] {dataset_name}@L{ee_cfg['layer']} (rank {local_rank})", disable=local_rank>0):
	# inputs = batch_to_device(inputs, device)

	# # if isinstance(aop_cfg, dict) and aop_cfg:
	# # aop_cfg["enabled"] = bool(_orig_enabled and side_enable)
	# # setattr(model.encoder, "aop_prune_config", aop_cfg)

	# # # 1) 前半程：跑到中间层（stop_at_layer），跳过 logits
	# # with torch.no_grad(), torch.autocast(device_type="cuda", dtype=torch.bfloat16, enabled=True):
	# # out_mid = model.encoder(
	# # **inputs,
	# # return_dict=True,
	# # output_hidden_states=False,
	# # stop_at_layer=int(ee_cfg["layer"]),
	# # compute_lm_head=False, # 关键：不算 logits
	# # )
	# orig_cfg = None
	# if isinstance(aop_cfg, dict) and aop_cfg:
	# orig_cfg = dict(aop_cfg) # 备份原配置，mid 后恢复
	# aop_layer = aop_cfg.get("layer_idx", None)
	# ee_layer = int(ee_cfg["layer"])
	# apply_to = aop_cfg.get("apply_to", "qry").strip().lower()
	# # 新规则：mid 阶段是否启用 AOP
	# aop_on_mid = bool(
	# _orig_enabled and side_enable and
	# (aop_layer is not None) and (aop_layer < ee_layer) and
	# (apply_to in {"qry", "both"})
	# )
	# aop_cfg_mid = dict(aop_cfg)
	# aop_cfg_mid["enabled"] = aop_on_mid
	# setattr(model.encoder, "aop_prune_config", aop_cfg_mid)

	# # 1) 前半程：跑到中间层（stop_at_layer），跳过 logits
	# with torch.no_grad(), torch.autocast(device_type="cuda", dtype=torch.bfloat16, enabled=True):
	# out_mid = model.encoder(
	# **inputs,
	# return_dict=True,
	# output_hidden_states=False,
	# stop_at_layer=int(ee_cfg["layer"]),
	# compute_lm_head=False, # 不算 logits
	# )

	# # 恢复原始 AOP 配置（避免影响后续续跑逻辑）
	# if isinstance(orig_cfg, dict):
	# setattr(model.encoder, "aop_prune_config", orig_cfg)

	# # EOS 池化 -> GPU
	# hs_mid = getattr(out_mid, "last_hidden_state", None)
	# if hs_mid is None:
	# assert out_mid.hidden_states is not None and len(out_mid.hidden_states) > 0
	# hs_mid = out_mid.hidden_states[-1]
	# am_mid = getattr(out_mid, "attention_mask", None)
	# if am_mid is None:
	# am_mid = inputs.get("attention_mask", None)
	# if hasattr(am_mid, "device") and am_mid.device != hs_mid.device:
	# am_mid = am_mid.to(hs_mid.device)
	# reps_mid_t = model._pooling(hs_mid, am_mid).detach().to(device=device, dtype=torch.bfloat16) # [B,D]

	# B = reps_mid_t.size(0)
	# use_local = (not global_ranking)

	# # 2) 门控：GPU上 top2 + 置信度
	# if not use_local:
	# # 全库：top2 即可
	# scores_t = reps_mid_t @ cand_mid_t.T # [B, Nc]
	# vals_t, idxs_t = torch.topk(scores_t, k=min(k_conf, scores_t.size(1)), dim=1) # [B,2]
	# p_t = torch.softmax(vals_t / max(temp, 1e-6), dim=1)
	# if vals_t.size(1) >= 2:
	# margin_t = vals_t[:, 0] - vals_t[:, 1]
	# p1p2_t = p_t[:, 0] - p_t[:, 1]
	# else:
	# margin_t = torch.full((B,), float("inf"), device=device, dtype=vals_t.dtype)
	# p1p2_t = torch.ones(B, device=device, dtype=vals_t.dtype)
	# H_t = -(p_t * (torch.log(p_t + 1e-12))).sum(dim=1) / math.log(max(vals_t.size(1),1))
	# conf_map = {"margin": margin_t, "p1p2": p1p2_t, "entropy": 1.0 - H_t, "gini": (p_t ** 2).sum(dim=1)}
	# confs_t = conf_map.get(method, margin_t) # [B]
	# exit_mask = (confs_t >= tau).detach().cpu().numpy().astype(bool)
	# else:
	# confs = []
	# for b in range(B):
	# cand_local = infos[b]["cand_names"]
	# rows = [cand_id2row.get(str(cid), -1) for cid in cand_local]
	# rows = [r for r in rows if r >= 0]
	# if len(rows) == 0:
	# confs.append(0.0); continue
	# cmat_t = cand_mid_t[rows] # [Nl, D]
	# sv_t = (reps_mid_t[b:b+1] @ cmat_t.T)[0] # [Nl]
	# k = 2 if sv_t.size(0) >= 2 else 1
	# vals_t, _ = torch.topk(sv_t, k=k, dim=0)
	# p_t = torch.softmax(vals_t / max(temp, 1e-6), dim=0)
	# if k >= 2:
	# margin = (vals_t[0] - vals_t[1]).item()
	# p1p2 = (p_t[0] - p_t[1]).item()
	# else:
	# margin, p1p2 = float("inf"), 1.0
	# H = (-(p_t * (torch.log(p_t + 1e-12))).sum() / math.log(max(k,1))).item()
	# gini = ((p_t ** 2).sum()).item()
	# d = {"margin": margin, "p1p2": p1p2, "entropy": 1.0 - H, "gini": gini}
	# confs.append(d.get(method, margin))
	# exit_mask = (np.array(confs) >= tau)

	# # 3) 早停：直接 mid 排序（只在需要保存 details 时构建 topk 列表）
	# for j in np.where(exit_mask)[0].tolist():
	# if not use_local:
	# scores_j = (reps_mid_t[j:j+1] @ cand_mid_t.T)[0] # [Nc]
	# order = torch.argsort(scores_j, dim=0, descending=True).detach().cpu().numpy()
	# cids = [cand_ids[i] for i in order]
	# else:
	# cand_local = infos[j]["cand_names"]
	# rows = [cand_id2row.get(str(cid), -1) for cid in cand_local]
	# rows = [r for r in rows if r >= 0]
	# if len(rows) == 0:
	# cids = []
	# else:
	# cmat_t = cand_mid_t[rows]
	# vec = (reps_mid_t[j:j+1] @ cmat_t.T)[0]
	# order_local = torch.argsort(vec, dim=0, descending=True).detach().cpu().numpy()
	# cids = [str(cand_local[i]) for i in order_local]
	# rel_docids = infos[j]["label_name"] if isinstance(infos[j]["label_name"], list) else [infos[j]["label_name"]]
	# pred_dicts.append({"prediction": cids, "label": rel_docids, "rel_scores": None})

	# # 4) 续跑：仅对未早停子集，从中间态继续到 last（跳过 logits）
	# need_idx = np.where(~exit_mask)[0].tolist()
	# if len(need_idx) > 0:
	# if cand_last_t is None:
	# cand_last_t = torch.from_numpy(cand_last).to(device=device, dtype=torch.bfloat16)
	# if isinstance(aop_cfg, dict) and aop_cfg:
	# aop_resume = dict(aop_cfg)
	# aop_resume["enabled"] = bool(_orig_enabled and side_enable)
	# setattr(model.encoder, "aop_prune_config", aop_resume)
	# interm = getattr(out_mid, "intermediate_state", None)
	# assert interm is not None, "Model must return intermediate_state when stop_at_layer is set."
	# hs = interm["hidden_states"].detach()
	# am = interm["attention_mask"].detach()
	# pos = interm["position_ids"].detach()
	# vm = interm.get("vision_mask", None)
	# tm = interm.get("text_mask", None)
	# next_layer = int(interm["next_layer_idx"])

	# hs_sub = hs[need_idx]
	# am_sub = am[need_idx]
	# pos_sub = pos[:, need_idx, :]
	# vm_sub = vm[need_idx] if vm is not None else None
	# tm_sub = tm[need_idx] if tm is not None else None
	# resume_state = {
	# "hidden_states": hs_sub,
	# "attention_mask": am_sub,
	# "position_ids": pos_sub,
	# "vision_mask": vm_sub,
	# "text_mask": tm_sub,
	# "next_layer_idx": next_layer,
	# }

	# with torch.no_grad(), torch.autocast(device_type="cuda", dtype=torch.bfloat16, enabled=True):
	# out_last = model.encoder(
	# return_dict=True,
	# output_hidden_states=False,
	# stop_at_layer=None,
	# resume_state=resume_state,
	# compute_lm_head=False, # 关键：不算 logits
	# )

	# hs_last = getattr(out_last, "last_hidden_state", None)
	# if hs_last is None:
	# assert out_last.hidden_states is not None and len(out_last.hidden_states) > 0
	# hs_last = out_last.hidden_states[-1]
	# am_last = getattr(out_last, "attention_mask", None)
	# if am_last is None:
	# am_last = am_sub
	# if hasattr(am_last, "device") and am_last.device != hs_last.device:
	# am_last = am_last.to(hs_last.device)
	# reps_last_t = model._pooling(hs_last, am_last).detach().to(device=device, dtype=torch.bfloat16)

	# if not use_local:
	# scores_last_t = reps_last_t @ cand_last_t.T
	# order_t = torch.argsort(scores_last_t, dim=1, descending=True)
	# for k, j in enumerate(need_idx):
	# order = order_t[k].detach().cpu().numpy()
	# cids = [cand_ids[i] for i in order]
	# rel_docids = infos[j]["label_name"] if isinstance(infos[j]["label_name"], list) else [infos[j]["label_name"]]
	# pred_dicts.append({"prediction": cids, "label": rel_docids, "rel_scores": None})
	# else:
	# for k, j in enumerate(need_idx):
	# cand_local = infos[j]["cand_names"]
	# rows = [cand_id2row.get(str(cid), -1) for cid in cand_local]
	# rows = [r for r in rows if r >= 0]
	# if len(rows) == 0:
	# cids = []
	# else:
	# cmat_last_t = cand_last_t[rows]
	# vec_t = (reps_last_t[k:k+1] @ cmat_last_t.T)[0]
	# order_local = torch.argsort(vec_t, dim=0, descending=True).detach().cpu().numpy()
	# cids = [str(cand_local[i]) for i in order_local]
	# rel_docids = infos[j]["label_name"] if isinstance(infos[j]["label_name"], list) else [infos[j]["label_name"]]
	# pred_dicts.append({"prediction": cids, "label": rel_docids, "rel_scores": None})

	# idx_global += B

	# # 评测并保存
	# metrics_to_report = ["hit", "ndcg", "precision", "recall", "f1", "map", "mrr"]
	# score = RankingMetrics(metrics_to_report).evaluate(pred_dicts)

	# if is_main:
	# os.makedirs(out_dir, exist_ok=True)
	# with open(os.path.join(out_dir, f"{dataset_name}_score_earlyexit.json"), "w") as f:
	# json.dump(score, f, indent=4)
	# # 建议测速时 EE_SAVE=0，不写 details
	# if ee_cfg.get("save", False):
	# with open(os.path.join(out_dir, f"{dataset_name}_pred_earlyexit.jsonl"), "w", encoding="utf-8") as f:
	# for row in pred_dicts: f.write(json.dumps(row, ensure_ascii=False) + "\n")

	# elapsed = time.time() - start_time
	# return score, elapsed

	# def make_layer_tag(keep_layers: int \| None):
	# return f"layer{keep_layers}" if keep_layers and keep_layers > 0 else "layerlast"

	# def dot_sim(a: np.ndarray, b: np.ndarray) -> np.ndarray:
	# # a: [Nq, D], b: [Nc, D], both L2-normalized already if normalize=true
	# return a @ b.T

	# def build_score_details(qid: int, cand_ids: list, score_vec: np.ndarray, ranked_indices: np.ndarray):
	# return {
	# "qid": int(qid),
	# "cand_scores": [
	# {"cand_id": str(cand_ids[i]), "score": float(score_vec[i])}
	# for i in ranked_indices
	# ]
	# }

	# def top1_top2_margin(score_vec: np.ndarray) -> float:
	# if len(score_vec) < 2:
	# return float("inf") # 只有一个候选时视作极大margin
	# top2 = np.partition(score_vec, -2)[-2:]
	# top2.sort()
	# return float(top2[-1] - top2[-2])

	# def simulate_early_exit_by_margin(
	# sims_mid: list[dict], sims_last: list[dict], labels: list[list[str]], metrics_to_report: list[str],
	# taus: list[float], rank_global: bool
	# ):
	# """
	# sims_mid / sims_last: 每个query一个dict: {cand_id: score}
	# labels: 每个query的正样本cand_id列表
	# 返回：不同tau下的覆盖率、指标
	# """
	# assert len(sims_mid) == len(sims_last) == len(labels)
	# N = len(labels)
	# results = []

	# from src.eval_utils.metrics import RankingMetrics
	# metrics = RankingMetrics(metrics_to_report)

	# # 预构造用于metrics.evaluate 的pred_dict
	# def to_pred_dicts(use_mid_mask: list[bool]) -> list[dict]:
	# pred_dicts = []
	# for qid in range(N):
	# sims_use = sims_mid[qid] if use_mid_mask[qid] else sims_last[qid]
	# # 排序
	# ranked = sorted(sims_use.items(), key=lambda x: -x[1])
	# pred_dicts.append({
	# "prediction": [cid for cid, _ in ranked],
	# "label": labels[qid],
	# "rel_scores": None
	# })
	# return pred_dicts

	# # 计算中间层margin
	# margins = []
	# for qid in range(N):
	# # 取前两大分数的margin
	# if len(sims_mid[qid]) == 0:
	# margins.append(0.0)
	# continue
	# scores = np.array(list(sims_mid[qid].values()), dtype=np.float32)
	# margins.append(top1_top2_margin(scores))

	# margins = np.array(margins, dtype=np.float32)

	# for tau in taus:
	# use_mid_mask = (margins >= tau).tolist()
	# pred_dicts = to_pred_dicts(use_mid_mask)
	# score_dict = metrics.evaluate(pred_dicts)
	# coverage = float(np.mean(use_mid_mask)) # 早停覆盖率
	# results.append({
	# "tau": tau,
	# "coverage": coverage,
	# **score_dict
	# })
	# return results

	# def top1_top2_margin_from_array(score_vec: np.ndarray) -> float:
	# if score_vec is None or len(score_vec) == 0:
	# return 0.0
	# if len(score_vec) == 1:
	# return float('inf')
	# # 取前两大
	# top2 = np.partition(score_vec, -2)[-2:]
	# top2.sort()
	# return float(top2[-1] - top2[-2])

	# logging.basicConfig(level=logging.INFO, format='[%(asctime)s] %(levelname)s [%(name)s:%(lineno)s] %(message)s')
	# logger = logging.getLogger(__name__)

	# # --- Global Dictionaries for Hooks (will be cleared before each encode_embeddings call) ---
	# timing_info = {}
	# token_info = {
	# "vision_tokens": 0,
	# "text_input_tokens": 0, # Refers to the original text token count
	# "text_output_tokens": 0, # Not directly applicable here as we are encoding, not generating. Will be 0.
	# "total_llm_input_tokens": 0, # Refers to the total tokens LLM receives (visual + formatted text)
	# }

	# # --- Hook Functions Definition ---
	# def timing_pre_hook(module, input):
	# module_id = id(module)
	# if module_id not in timing_info:
	# timing_info[module_id] = []
	# timing_info[module_id].append((time.time(), 'pre', module.__class__.__name__))

	# def timing_post_hook(module, input, output):
	# module_id = id(module)
	# if module_id not in timing_info:
	# # print(f"Warning: No pre-hook data for module {module.__class__.__name__} ({module_id})")
	# return

	# timing_info[module_id].append((time.time(), 'post', module.__class__.__name__))

	# # Collect vision token count (only from Vision Transformer module's post hook)
	# module_name = module.__class__.__name__
	# if "vision" in module_name.lower() and "transformer" in module_name.lower():
	# if isinstance(output, torch.Tensor):
	# token_info["vision_tokens"] = output.shape[0] # For visual features, usually (batch_size, num_tokens, hidden_dim)
	# elif hasattr(output, 'last_hidden_state'):
	# token_info["vision_tokens"] = output.last_hidden_state.shape[1]


	# def register_model_hooks(model):
	# registered_modules = []

	# core_model = model.encoder if hasattr(model, "encoder") and model.encoder is not None else model

	# # Vision module
	# if hasattr(core_model, 'visual') and core_model.visual is not None:
	# vision_module = core_model.visual
	# vision_module.register_forward_pre_hook(timing_pre_hook)
	# vision_module.register_forward_hook(timing_post_hook)
	# registered_modules.append(vision_module)
	# print_master(f"Registered hooks for vision module: {vision_module.__class__.__name__}")
	# else:
	# print_master(f"WARNING: No 'visual' attribute found on core_model ({type(core_model)}).")


	# # Merger module (if inside visual) - it's part of the vision component
	# if hasattr(core_model, 'visual') and hasattr(core_model.visual, 'merger') and core_model.visual.merger is not None:
	# merger_module = core_model.visual.merger
	# merger_module.register_forward_pre_hook(timing_pre_hook)
	# merger_module.register_forward_hook(timing_post_hook)
	# registered_modules.append(merger_module)
	# print_master(f"Registered hooks for merger module: {merger_module.__class__.__name__}")
	# else:
	# print_master(f"WARNING: No 'merger' attribute found on core_model.visual ({type(getattr(core_model, 'visual', 'N/A'))}).")

	# # Language model body
	# if hasattr(core_model, 'model') and core_model.model is not None:
	# llm_main_module = core_model.model
	# llm_main_module.register_forward_pre_hook(timing_pre_hook)
	# llm_main_module.register_forward_hook(timing_post_hook)
	# registered_modules.append(llm_main_module)
	# print_master(f"Registered hooks for LLM main module: {llm_main_module.__class__.__name__}")
	# else:
	# print_master(f"WARNING: No 'model' attribute found on core_model ({type(core_model)}).")


	# # LM Head
	# if hasattr(core_model, 'lm_head') and core_model.lm_head is not None:
	# lm_head_module = core_model.lm_head
	# lm_head_module.register_forward_pre_hook(timing_pre_hook)
	# lm_head_module.register_forward_hook(timing_post_hook)
	# registered_modules.append(lm_head_module)
	# print_master(f"Registered hooks for LM head module: {lm_head_module.__class__.__name__}")
	# else:
	# print_master(f"WARNING: No 'lm_head' attribute found on core_model ({type(core_model)}).")


	# if not registered_modules:
	# print_master("Warning: No major modules found for hook registration. Check model architecture.")
	# return registered_modules


	# def pad_dataset_to_divisible(dataset, world_size):
	# num_samples = len(dataset)
	# if num_samples % world_size == 0:
	# return dataset, num_samples

	# num_to_add = world_size - (num_samples % world_size)
	# padded_size = num_samples + num_to_add

	# padding_data = dataset.select([i % len(dataset) for i in range(num_to_add)])
	# padded_dataset = concatenate_datasets([dataset, padding_data])
	# return padded_dataset, padded_size

	# def encode_embeddings(
	# model: MMEBModel,
	# loader: DataLoader,
	# training_args: TrainingArguments,
	# model_args: ModelArguments,
	# full_dataset: Dataset,
	# encode_side: str,
	# description: str = "Encoding"
	# ) -> tuple[np.ndarray, list, list, list]: # CHANGED: + list for img_token_masks
	# """
	# Encodes embeddings for a given dataset using the model, handling both standard and
	# late-interaction models in a DDP-safe manner.
	# Returns:
	# - embeddings: np.ndarray
	# - infos_or_ids: list
	# - batch_stats_list: list
	# - img_token_masks: list[None \| list[bool]] # NEW
	# """
	# local_rank = dist.get_rank() if dist.is_initialized() else 0
	# world_size = dist.get_world_size() if dist.is_initialized() else 1

	# # Check if the model is a late-interaction type
	# is_late_interaction = (model_args.model_backbone == COLPALI)

	# local_embeds = []
	# local_gt_infos = []
	# local_max_len = 0

	# # --- New: List to store statistics for each batch ---
	# batch_stats_list = []

	# # --- NEW: Collect masks ---
	# local_img_token_masks = [] # post image mask per sample
	# local_txt_token_masks = [] # NEW: post text mask per sample
	# local_post_attn_masks = [] # NEW: post attention_mask per sample (after prune, 1/0)

	# # --- NEW: per-sample token reduction records ---
	# local_token_records = [] # 每条样本一个 dict，含 pre/post/delta 数量

	# model.eval()

	# # Register hooks for the model once per encode_embeddings call
	# registered_hooks = register_model_hooks(model)

	# # --- NEW: helpers to取mask并序列化 ---
	# def _search_key(obj, key: str):
	# # 递归搜索 dict/list/tuple，找到指定 key
	# if isinstance(obj, dict):
	# if key in obj:
	# return obj[key]
	# for v in obj.values():
	# r = _search_key(v, key)
	# if r is not None:
	# return r
	# elif isinstance(obj, (list, tuple)):
	# for v in obj:
	# r = _search_key(v, key)
	# if r is not None:
	# return r
	# return None

	# def _to_serializable_mask_list(mask_list, batch_size: int):
	# # 将模型返回的 mask（list/tensor/ndarray/None）转成 [None \| list[bool]] * B
	# if mask_list is None:
	# return [None] * batch_size

	# out = []
	# if isinstance(mask_list, (list, tuple)):
	# for m in mask_list:
	# if m is None:
	# out.append(None)
	# elif torch.is_tensor(m):
	# out.append(m.detach().cpu().tolist())
	# elif isinstance(m, np.ndarray):
	# out.append(m.tolist())
	# else:
	# # already python list/bool
	# out.append(m)
	# elif torch.is_tensor(mask_list):
	# # 若是 2D 张量（B, L），直接 tolist() -> list[list[bool/int]]
	# out = mask_list.detach().cpu().tolist()
	# elif isinstance(mask_list, np.ndarray):
	# out = mask_list.tolist()
	# else:
	# # 未知类型，保守返回 None 占位
	# out = [None] * batch_size

	# # 长度对齐 batch_size
	# if isinstance(out, list):
	# if len(out) < batch_size:
	# out = out + [None] * (batch_size - len(out))
	# elif len(out) > batch_size:
	# out = out[:batch_size]
	# return out

	# def _to_bool_lists(m, batch_size: int):
	# lst = _to_serializable_mask_list(m, batch_size)
	# # 归一化成 list[ list[bool] \| None ]
	# out = []
	# for x in lst:
	# if x is None:
	# out.append(None)
	# else:
	# # x 可能是 list[int] 或 list[bool]
	# out.append([bool(int(v)) for v in x])
	# return out

	# with torch.no_grad():
	# for inputs, dataset_info in tqdm(loader, desc=f"{description} (rank {local_rank})", disable=local_rank > 0):
	# # --- Reset statistics for each inference pass ---
	# timing_info.clear()
	# token_info["vision_tokens"] = 0
	# token_info["text_input_tokens"] = 0
	# token_info["text_output_tokens"] = 0
	# token_info["total_llm_input_tokens"] = 0

	# inputs = batch_to_device(inputs, training_args.device)
	# current_batch_size = inputs['input_ids'].shape[0] if 'input_ids' in inputs and inputs['input_ids'] is not None else 1

	# with torch.autocast(enabled=True, dtype=torch.bfloat16, device_type="cuda"):
	# start_inference_time = time.time()
	# # ---- NEW: 按侧开/关 AOP ----
	# aop_cfg = getattr(model.encoder, "aop_prune_config", None)
	# _orig_enabled = None
	# if isinstance(aop_cfg, dict) and aop_cfg:
	# _orig_enabled = aop_cfg.get("enabled", False)
	# apply_to = aop_cfg.get("apply_to", "qry")
	# side_enable = (apply_to == "both") or (apply_to == encode_side)
	# aop_cfg["enabled"] = bool(side_enable and _orig_enabled)
	# setattr(model.encoder, "aop_prune_config", aop_cfg)
	# if encode_side == "qry":
	# output = model(qry=inputs)
	# reps = output["qry_reps"].detach()
	# local_gt_infos.extend(dataset_info)
	# else:
	# output = model(tgt=inputs)
	# reps = output["tgt_reps"].detach()
	# local_gt_infos.extend([info["cand_name"] for info in dataset_info])
	# # ---- NEW: 恢复 enabled（避免影响下个 encode_side）----
	# if isinstance(aop_cfg, dict) and _orig_enabled is not None:
	# aop_cfg["enabled"] = _orig_enabled
	# setattr(model.encoder, "aop_prune_config", aop_cfg)
	# end_inference_time = time.time()

	# # --- NEW: 提取 post-prune 的 image/text 掩码与 post attention_mask ---
	# img_masks_raw = None
	# txt_masks_raw = None
	# post_attn_raw = None

	# if isinstance(output, dict):
	# img_masks_raw = _search_key(output, "image_token_bool_masks")
	# txt_masks_raw = _search_key(output, "text_token_bool_masks") # NEW
	# post_attn_raw = _search_key(output, "post_attention_mask") # NEW（我们的 MMEBModel.forward 里带了这个键）

	# # 兼容：若挂在 model 上
	# if img_masks_raw is None and hasattr(model, "image_token_bool_masks"):
	# img_masks_raw = getattr(model, "image_token_bool_masks")
	# if txt_masks_raw is None and hasattr(model, "text_token_bool_masks"):
	# txt_masks_raw = getattr(model, "text_token_bool_masks")
	# if post_attn_raw is None and hasattr(model, "post_attention_mask"):
	# post_attn_raw = getattr(model, "post_attention_mask")

	# img_masks_serializable = _to_serializable_mask_list(img_masks_raw, current_batch_size)
	# txt_masks_serializable = _to_serializable_mask_list(txt_masks_raw, current_batch_size) # NEW
	# post_attn_serializable = _to_serializable_mask_list(post_attn_raw, current_batch_size) # NEW

	# local_img_token_masks.extend(img_masks_serializable)
	# local_txt_token_masks.extend(txt_masks_serializable) # NEW
	# local_post_attn_masks.extend(post_attn_serializable) # NEW

	# # --- NEW: 计算本 batch 的 pre/post/delta 数量并累计 ---
	# cfg = getattr(model.encoder, "config", None)
	# # pre masks 来自 inputs（删前）
	# input_ids = inputs.get("input_ids", None)
	# attn2d_pre = inputs.get("attention_mask", None)
	# if input_ids is None or attn2d_pre is None or cfg is None:
	# # 无法统计，留空
	# pre_vis_counts = [0] * current_batch_size
	# pre_txt_counts = [0] * current_batch_size
	# pre_tot_counts = [0] * current_batch_size
	# else:
	# iid = input_ids
	# am = attn2d_pre.to(torch.bool)
	# image_token_id = getattr(cfg, "image_token_id", None)
	# video_token_id = getattr(cfg, "video_token_id", None)
	# bos_id = getattr(cfg, "bos_token_id", None)
	# eos_id = getattr(cfg, "eos_token_id", None)
	# pad_id = getattr(cfg, "pad_token_id", None)

	# is_image = (iid == image_token_id) if (image_token_id is not None and image_token_id >= 0) else torch.zeros_like(iid, dtype=torch.bool)
	# is_video = (iid == video_token_id) if (video_token_id is not None and video_token_id >= 0) else torch.zeros_like(iid, dtype=torch.bool)
	# is_vision = is_image \| is_video

	# is_special = torch.zeros_like(iid, dtype=torch.bool)
	# for tid in [bos_id, eos_id, pad_id]:
	# if tid is not None and tid >= 0:
	# is_special \|= (iid == tid)

	# pre_txt_mask = am & (~is_vision) & (~is_special)
	# pre_vis_mask = am & is_vision

	# pre_vis_counts = pre_vis_mask.sum(dim=1).tolist()
	# pre_txt_counts = pre_txt_mask.sum(dim=1).tolist()
	# pre_tot_counts = am.sum(dim=1).tolist()

	# # post masks（删后）来自模型输出；与 post_attn 做与运算
	# post_text_masks = _to_bool_lists(txt_masks_raw, current_batch_size) # list[ list[bool] \| None ]
	# post_image_masks = _to_bool_lists(img_masks_raw, current_batch_size)
	# post_attn_masks = _to_bool_lists(post_attn_raw, current_batch_size)

	# sum_pre_text = 0; sum_post_text = 0
	# sum_pre_vis = 0; sum_post_vis = 0
	# sum_pre_tot = 0; sum_post_tot = 0

	# for i in range(current_batch_size):
	# pre_text = int(pre_txt_counts[i]) if i < len(pre_txt_counts) else 0
	# pre_vis = int(pre_vis_counts[i]) if i < len(pre_vis_counts) else 0
	# pre_tot = int(pre_tot_counts[i]) if i < len(pre_tot_counts) else 0

	# # post 计数：mask 可能为 None
	# m_text = post_text_masks[i] if post_text_masks is not None and i < len(post_text_masks) else None
	# m_img = post_image_masks[i] if post_image_masks is not None and i < len(post_image_masks) else None
	# m_attn = post_attn_masks[i] if post_attn_masks is not None and i < len(post_attn_masks) else None

	# if m_attn is None:
	# post_text = 0; post_vis = 0; post_tot = 0
	# else:
	# # 与 attention_mask 后统计 True 的数
	# if m_text is not None:
	# post_text = sum(1 for a, t in zip(m_attn, m_text) if a and t)
	# else:
	# post_text = 0
	# if m_img is not None:
	# post_vis = sum(1 for a, v in zip(m_attn, m_img) if a and v)
	# else:
	# post_vis = 0
	# post_tot = sum(1 for a in m_attn if a)

	# # 累计 batch 级
	# sum_pre_text += pre_text; sum_post_text += post_text
	# sum_pre_vis += pre_vis; sum_post_vis += post_vis
	# sum_pre_tot += pre_tot; sum_post_tot += post_tot

	# # 保存 per-sample 记录（用于 JSONL）
	# local_token_records.append({
	# "side": encode_side,
	# "pre": {"text": pre_text, "vision": pre_vis, "total": pre_tot},
	# "post": {"text": post_text, "vision": post_vis, "total": post_tot},
	# "delta":{"text": pre_text - post_text, "vision": pre_vis - post_vis, "total": pre_tot - post_tot},
	# })

	# # --- Update total LLM input tokens after the model call ---
	# if 'input_ids' in inputs and inputs['input_ids'] is not None:
	# token_info["total_llm_input_tokens"] = inputs['input_ids'].shape[1]
	# token_info["text_input_tokens"] = token_info["total_llm_input_tokens"] - token_info["vision_tokens"]
	# token_info["text_input_tokens"] = max(0, token_info["text_input_tokens"])

	# # --- Collect and Store Batch Statistics ---
	# batch_inference_time = end_inference_time - start_inference_time

	# current_batch_stats = {
	# "batch_size": current_batch_size,
	# "total_inference_time_seconds": batch_inference_time,
	# "module_inference_times": {},
	# "token_counts": {
	# "visual_tokens": token_info["vision_tokens"],
	# "language_input_tokens_raw": token_info["text_input_tokens"],
	# "llm_total_input_tokens": token_info["total_llm_input_tokens"],
	# "language_output_tokens": token_info["text_output_tokens"],
	# }
	# }
	# current_batch_stats["token_reduction"] = {
	# "sum_pre_text": sum_pre_text,
	# "sum_post_text": sum_post_text,
	# "sum_pre_vision": sum_pre_vis,
	# "sum_post_vision": sum_post_vis,
	# "sum_pre_total": sum_pre_tot,
	# "sum_post_total": sum_post_tot,
	# }

	# # Calculate and store module timings for the current batch
	# for module_obj in registered_hooks:
	# module_id = id(module_obj)
	# module_name = module_obj.__class__.__name__
	# times = timing_info.get(module_id, [])
	# durations = []
	# pre_times = {}
	# for t, event_type, _ in times:
	# if event_type == 'pre':
	# pre_times[module_id] = t
	# elif event_type == 'post' and module_id in pre_times:
	# duration = t - pre_times.pop(module_id)
	# durations.append(duration)

	# if durations:
	# current_batch_stats["module_inference_times"][module_name] = {
	# "total": sum(durations),
	# "count": len(durations),
	# "avg": sum(durations) / len(durations)
	# }
	# else:
	# current_batch_stats["module_inference_times"][module_name] = {
	# "total": 0.0,
	# "count": 0,
	# "avg": 0.0
	# }

	# batch_stats_list.append(current_batch_stats)

	# # --- Debug prints (optional) ---
	# print_rank(f"\n--- Inference Statistics for {encode_side} batch (Rank {local_rank}) ---")
	# print_rank(f"Batch Inference took: {batch_inference_time:.4f} seconds")
	# print_rank("--- Module Inference Timing Statistics ---")
	# for module_name, stats in current_batch_stats["module_inference_times"].items():
	# print_rank(f"{module_name}: Total: {stats['total']:.6f}s, Count: {stats['count']}, Avg: {stats['avg']:.6f}s")
	# print_rank("--- Token Count Statistics ---")
	# print_rank(f"视觉 token 数量: {current_batch_stats['token_counts']['visual_tokens']}")
	# print_rank(f"语言输入 token 数量 (仅原始文本): {current_batch_stats['token_counts']['language_input_tokens_raw']}")
	# print_rank(f"LLM总输入 token 数量 (包含视觉 + 格式化文本): {current_batch_stats['token_counts']['llm_total_input_tokens']}")
	# print_rank(f"语言输出 token 数量: {current_batch_stats['token_counts']['language_output_tokens']}")

	# if is_late_interaction and reps.dim() == 3:
	# local_max_len = max(local_max_len, reps.shape[1])

	# local_embeds.append(reps)

	# if not local_embeds:
	# # Handle cases where a rank gets no data
	# return np.array([]), [], [], [] # CHANGED: 4个返回值

	# # === DDP Synchronization and Padding for Late-Interaction Models ===
	# if is_late_interaction:
	# if dist.is_initialized():
	# # 1: global max length
	# local_max_len_tensor = torch.tensor(local_max_len, device=training_args.device)
	# dist.all_reduce(local_max_len_tensor, op=dist.ReduceOp.MAX)
	# global_max_len = local_max_len_tensor.item()
	# else:
	# global_max_len = local_max_len

	# # 2: pad to global max length
	# padded_embeds = []
	# for reps_batch in local_embeds:
	# if reps_batch.dim() == 3:
	# B, L, H = reps_batch.shape
	# padding_size = global_max_len - L
	# padded_batch = F.pad(reps_batch, (0, 0, 0, padding_size), "constant", 0)
	# padded_embeds.append(padded_batch)
	# else:
	# padded_embeds.append(reps_batch)

	# embeds_tensor = torch.cat(padded_embeds, dim=0).contiguous()
	# else:
	# embeds_tensor = torch.cat(local_embeds, dim=0).contiguous()

	# # === Gather embeddings and keys from all ranks ===
	# if dist.is_initialized() and full_dataset.num_rows >= world_size:
	# print_master(f"Gathering {encode_side} embeddings across all ranks...")

	# # tensor gather
	# output_shape = list(embeds_tensor.shape)
	# output_shape[0] = full_dataset.num_rows
	# embeds_tensor = embeds_tensor.to(training_args.device)
	# gathered_embeds_tensor = torch.empty(output_shape, dtype=embeds_tensor.dtype, device=training_args.device)
	# dist.all_gather_into_tensor(gathered_embeds_tensor, embeds_tensor)
	# final_embeddings = gathered_embeds_tensor.cpu().float().numpy()

	# # object gather for infos and stats
	# gathered_gt_infos = [None for _ in range(world_size)]
	# dist.all_gather_object(gathered_gt_infos, local_gt_infos)
	# all_gt_infos = [key for rank_keys in gathered_gt_infos for key in rank_keys]

	# gathered_batch_stats = [None for _ in range(world_size)]
	# dist.all_gather_object(gathered_batch_stats, batch_stats_list)
	# all_batch_stats = [stats for rank_stats in gathered_batch_stats for stats in rank_stats]

	# # --- NEW: gather masks ---
	# gathered_masks = [None for _ in range(world_size)]
	# dist.all_gather_object(gathered_masks, local_img_token_masks)
	# all_img_token_masks = [m for rank_list in gathered_masks for m in rank_list]
	# # NEW: gather text masks
	# gathered_txt_masks = [None for _ in range(world_size)]
	# dist.all_gather_object(gathered_txt_masks, local_txt_token_masks)
	# all_txt_token_masks = [m for rank_list in gathered_txt_masks for m in rank_list]

	# # NEW: gather post attention masks（如需）
	# gathered_post_attn = [None for _ in range(world_size)]
	# dist.all_gather_object(gathered_post_attn, local_post_attn_masks)
	# all_post_attn_masks = [m for rank_list in gathered_post_attn for m in rank_list]

	# # NEW: gather token records
	# gathered_token_recs = [None for _ in range(world_size)]
	# dist.all_gather_object(gathered_token_recs, local_token_records)
	# all_token_records = [r for rank_list in gathered_token_recs for r in rank_list]
	# else:
	# all_gt_infos = local_gt_infos
	# final_embeddings = embeds_tensor.cpu().float().numpy()
	# all_batch_stats = batch_stats_list
	# all_img_token_masks = local_img_token_masks # NEW
	# all_txt_token_masks = local_txt_token_masks
	# all_post_attn_masks = local_post_attn_masks
	# all_token_records = local_token_records

	# return final_embeddings, all_gt_infos, all_batch_stats, all_img_token_masks, all_txt_token_masks, all_token_records

	# # === NEW: 一次前向同时导出 cand 的中间层和最后一层向量 ===
	# def encode_candidates_both_layers(
	# model: MMEBModel,
	# loader: DataLoader,
	# training_args: TrainingArguments,
	# model_args: ModelArguments,
	# full_dataset: Dataset,
	# mid_layer: int,
	# ) -> tuple[np.ndarray, np.ndarray, list]:
	# """
	# 单次forward到最后一层，直接从 hidden_states 取：
	# - mid_hidden = hidden_states[mid_layer] # 表示经过 mid_layer 层后的状态（见Qwen2_5_VLModel的all_hidden_states定义）
	# - last_hidden = hidden_states[-1] # 最后一层norm后的状态
	# 然后用 _pooling(attention_mask) 取句向量，返回：
	# - cand_mid_embeds: np.ndarray [Nc, D]
	# - cand_last_embeds: np.ndarray [Nc, D]
	# - cand_ids: list[str]
	# 说明：
	# - cand 侧默认不做 AOP 剪枝（AOP_APPLY=qry 时天然关闭），因此 mid/last 的序列长度一致，可直接用原 attention_mask 做池化。
	# """
	# local_rank = dist.get_rank() if dist.is_initialized() else 0
	# model.eval()

	# all_mid = []
	# all_last = []
	# all_ids = []

	# with torch.no_grad():
	# for inputs, dataset_info in tqdm(loader, desc=f"Candidates[BOTH] (rank {local_rank})", disable=local_rank > 0):
	# inputs = batch_to_device(inputs, training_args.device)
	# # cand 侧确保不触发 AOP（如果你的 AOP_APPLY=qry/both，会在底模按侧门控；此处再做一次保险）
	# aop_cfg = getattr(model.encoder, "aop_prune_config", None)
	# _orig_enabled = None
	# if isinstance(aop_cfg, dict) and aop_cfg:
	# _orig_enabled = aop_cfg.get("enabled", False)
	# apply_to = aop_cfg.get("apply_to", "qry")
	# side_enable = (apply_to == "both") or (apply_to == "cand")
	# aop_cfg["enabled"] = bool(side_enable and _orig_enabled)
	# setattr(model.encoder, "aop_prune_config", aop_cfg)

	# with torch.autocast(enabled=True, dtype=torch.bfloat16, device_type="cuda"):
	# # 关键：一次forward拿全层的hidden_states
	# out = model.encoder(
	# **inputs,
	# return_dict=True,
	# output_hidden_states=True, # 必须
	# stop_at_layer=None, # 走全层
	# )

	# # 取 hidden_states 并索引中间层/最后一层
	# hs_list = out.hidden_states
	# assert hs_list is not None and len(hs_list) > mid_layer, \
	# f"hidden_states is None or too short. Need index {mid_layer}, got len={0 if hs_list is None else len(hs_list)}"
	# mid_hs = hs_list[mid_layer] # [B, L, D]：等价“经过 mid_layer 层后的状态”（即 pre-layer(mid_layer+1)）
	# last_hs = hs_list[-1] # [B, L, D]：最终norm后的状态

	# # 用原 attention_mask 池化（cand侧未剪枝）
	# am = inputs.get("attention_mask", None)
	# if am is not None and hasattr(am, "device"):
	# if am.device != mid_hs.device:
	# am = am.to(mid_hs.device)

	# reps_mid = model._pooling(mid_hs, am) # [B, D]
	# reps_last = model._pooling(last_hs, am) # [B, D]

	# all_mid.append(reps_mid.detach().float().cpu())
	# all_last.append(reps_last.detach().float().cpu())
	# all_ids.extend([info["cand_name"] for info in dataset_info])

	# # 恢复 AOP 开关（避免影响其它侧）
	# if isinstance(aop_cfg, dict) and _orig_enabled is not None:
	# aop_cfg["enabled"] = _orig_enabled
	# setattr(model.encoder, "aop_prune_config", aop_cfg)

	# if not all_mid:
	# return np.array([]), np.array([]), []

	# cand_mid_embeds = torch.cat(all_mid, dim=0).numpy()
	# cand_last_embeds = torch.cat(all_last, dim=0).numpy()
	# return cand_mid_embeds, cand_last_embeds, all_ids

	# def main():
	# # ----------------------- Distributed init -----------------------
	# if "RANK" in os.environ and dist.is_available() and not dist.is_initialized():
	# dist.init_process_group(backend="nccl", timeout=datetime.timedelta(minutes=60))
	# local_rank = dist.get_rank() if dist.is_initialized() else 0
	# world_size = dist.get_world_size() if dist.is_initialized() else 1

	# print_master("Distributed init debug info:")
	# print_master(f"RANK: {os.environ.get('RANK')}")
	# print_master(f"LOCAL_RANK: {os.environ.get('LOCAL_RANK')}")
	# print_master(f"WORLD_SIZE: {os.environ.get('WORLD_SIZE')}")
	# print_master(f"MASTER_ADDR: {os.environ.get('MASTER_ADDR')}")
	# print_master(f"MASTER_PORT: {os.environ.get('MASTER_PORT')}")
	# if dist.is_initialized():
	# print_rank(f"dist.get_rank(): {dist.get_rank()}")
	# print_rank(f"dist.get_world_size(): {dist.get_world_size()}")

	# # 兼容 torchrun 参数
	# for arg in sys.argv:
	# if arg.startswith("--local-rank="):
	# rank = arg.split("=")[1]
	# sys.argv.remove(arg)
	# sys.argv.append('--local_rank')
	# sys.argv.append(rank)

	# # ----------------------- Parse args -----------------------
	# parser = HfArgumentParser((ModelArguments, DataArguments, TrainingArguments))
	# model_args, data_args, training_args = parser.parse_args_into_dataclasses()
	# model_args: ModelArguments
	# data_args: DataArguments
	# training_args: TrainingArguments
	# os.makedirs(data_args.encode_output_path, exist_ok=True)

	# # 支持多层评测（优先 LM_LAYERS，兼容 MID_LM_LAYER）
	# layers_to_eval = get_env_eval_layers()
	# print_master(f"Eval layers (qry/tgt): {layers_to_eval}")

	# # ----------------------- Model loading -----------------------
	# hf_config = AutoConfig.from_pretrained(model_args.model_name, trust_remote_code=True)
	# if not getattr(model_args, "model_backbone", None):
	# model_backbone = get_backbone_name(hf_config=hf_config, model_type=model_args.model_type)
	# setattr(model_args, 'model_backbone', model_backbone)
	# setattr(training_args, 'model_backbone', model_backbone)
	# print_master(f'Model Backbone: {model_args.model_backbone}')

	# # 仅 rank0 下载，其他rank等待缓存
	# if local_rank == 0:
	# processor = load_processor(model_args, data_args)
	# model = MMEBModel.load(model_args, is_trainable=False, processor=processor)
	# print_master(f"[rank=0] Loading the model from Huggingface: {model_args.model_name}...")
	# if torch.distributed.is_initialized():
	# torch.distributed.barrier()
	# if local_rank != 0:
	# print_rank(f"Loading the model from cache...")
	# processor = load_processor(model_args, data_args)
	# time.sleep(random.randint(2 * local_rank, 3 * local_rank))
	# model = MMEBModel.load(model_args, is_trainable=False, processor=processor)

	# model.eval()
	# model = model.to(training_args.device, dtype=torch.bfloat16)

	# # ---- NEW: AOP 剪裁配置注入（驱动底模里已实现的 AOP 逻辑）----
	# aop_cfg = get_env_aop_config()
	# if aop_cfg["enabled"]:
	# # 把配置塞到底模；底模 forward 中读取该 dict 并执行剪裁
	# setattr(model.encoder, "aop_prune_config", aop_cfg)
	# # 可选：为了便于在判定层取注意力或手算 qk，覆盖注意力实现
	# attn_override = aop_cfg.get("attn_impl_override", "")
	# if attn_override:
	# try:
	# if hasattr(model.encoder, "model") and hasattr(model.encoder.model, "config"):
	# prev = model.encoder.model.config._attn_implementation
	# model.encoder.model.config._attn_implementation = attn_override
	# print_master(f"[AOP] override attn impl: {prev} -> {attn_override} (仅测试建议)")
	# except Exception as e:
	# print_master(f"[AOP] try override attn impl failed: {e}")

	# print_master("[AOP] AOP-Prune enabled with config: " + json.dumps({
	# "apply_to": aop_cfg["apply_to"],
	# "layer_idx": aop_cfg["layer_idx"],
	# "mode": aop_cfg["mode"],
	# "delta": aop_cfg["delta"],
	# "K_hat": aop_cfg["K_hat"],
	# "keep_ratio": aop_cfg["keep_ratio"],
	# "min_keep": aop_cfg["min_keep"],
	# "use_bias": aop_cfg["use_bias"],
	# "margin_mid?": (aop_cfg["margin_mid"] is not None),
	# "prune_text": aop_cfg.get("prune_text", False),
	# "keep_ratio_text": aop_cfg.get("keep_ratio_text", None),
	# "keep_ratio_vision": aop_cfg.get("keep_ratio_vision", None),
	# "selection": aop_cfg.get("selection", "aop"),
	# "attn_agg": aop_cfg.get("attn_agg", "mean"),
	# }))
	# else:
	# print_master("[AOP] disabled (set AOP_ENABLED=1 to enable)")

	# # 确保“最后一层”时不裁层（避免类里默认20层的坑）
	# model.set_inference_layers(qry_layers=None, tgt_layers=None)

	# with open(data_args.dataset_config, 'r') as yaml_file:
	# dataset_configs = yaml.safe_load(yaml_file)

	# # ----------------------- Main evaluation loop -----------------------
	# for dataset_idx, (dataset_name, task_config) in enumerate(dataset_configs.items()):
	# if dist.is_initialized():
	# dist.barrier()
	# print_master(f"\n--- Evaluating {dataset_name} ---")

	# # 根据 data_basedir 修正路径
	# if data_args.data_basedir is not None:
	# for key in ["image_root", "video_root", "frame_root", "clip_root", "data_path"]:
	# if data_args.data_basedir and task_config.get(key):
	# task_config[key] = os.path.join(data_args.data_basedir, task_config[key])

	# # 构建数据集
	# full_eval_qry_dataset, corpus = AutoEvalPairDataset.instantiate(model_args=model_args, data_args=data_args, **task_config)
	# full_eval_cand_dataset = generate_cand_dataset(full_eval_qry_dataset, corpus)
	# eval_qry_dataset, eval_cand_dataset = full_eval_qry_dataset, full_eval_cand_dataset

	# if dist.is_initialized():
	# world_size = dist.get_world_size()
	# padded_qry_dataset, _ = pad_dataset_to_divisible(full_eval_qry_dataset, world_size)
	# padded_cand_dataset, _ = pad_dataset_to_divisible(full_eval_cand_dataset, world_size)
	# eval_qry_dataset = split_dataset_by_node(padded_qry_dataset, rank=local_rank, world_size=world_size)
	# eval_cand_dataset = split_dataset_by_node(padded_cand_dataset, rank=local_rank, world_size=world_size)
	# else:
	# padded_qry_dataset, padded_cand_dataset = full_eval_qry_dataset, full_eval_cand_dataset


	# # === EE-only: 仅在线早停推理（先确保两份 candidate 向量）===
	# ee_cfg = get_env_ee_config()
	# assert ee_cfg["enabled"], "EE_ENABLED must be 1 for EE-only pipeline."

	# # 依据 EE_LAYER 构造 tag
	# mid_layer = int(ee_cfg["layer"])
	# mid_tag = make_layer_tag(mid_layer) # e.g., layer12
	# last_tag = "layerlast"

	# # 准备路径
	# cand_mid_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_tgt_{mid_tag}")
	# cand_last_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_tgt_{last_tag}")

	# # 构造 cand DataLoader（一次性，不切分）
	# eval_cand_collator = MultimodalEvalDataCollator(processor, model_args, data_args, "cand")
	# eval_cand_loader = DataLoader(
	# full_eval_cand_dataset,
	# batch_size=training_args.per_device_eval_batch_size,
	# collate_fn=eval_cand_collator,
	# num_workers=training_args.dataloader_num_workers
	# )

	# # === 替换为：一次前向，导出 cand 的 mid/last 两份向量 ===
	# need_mid = (not os.path.exists(cand_mid_path))
	# need_last = (not os.path.exists(cand_last_path))

	# if need_mid or need_last:
	# print_master(f"[{dataset_name}] EE-only: encoding candidates BOTH layers in one pass (mid={mid_tag}, last={last_tag}) ...")
	# # 走全层（不截层）
	# model.set_inference_layers(qry_layers=None, tgt_layers=None)

	# cand_embeds_mid, cand_embeds_last, all_cand_ids = encode_candidates_both_layers(
	# model=model,
	# loader=eval_cand_loader,
	# training_args=training_args,
	# model_args=model_args,
	# full_dataset=full_eval_cand_dataset,
	# mid_layer=mid_layer,
	# )
	# if local_rank == 0:
	# if need_mid:
	# cand_embed_dict_mid = {cid: emb for cid, emb in zip(all_cand_ids, cand_embeds_mid)}
	# with open(cand_mid_path, "wb") as f:
	# pickle.dump(cand_embed_dict_mid, f)
	# print_master(f"[{dataset_name}] EE-only: saved {mid_tag} candidate embeddings -> {cand_mid_path}")
	# if need_last:
	# cand_embed_dict_last = {cid: emb for cid, emb in zip(all_cand_ids, cand_embeds_last)}
	# with open(cand_last_path, "wb") as f:
	# pickle.dump(cand_embed_dict_last, f)
	# print_master(f"[{dataset_name}] EE-only: saved {last_tag} candidate embeddings -> {cand_last_path}")
	# else:
	# print_master(f"[{dataset_name}] EE-only: reuse existing candidates (mid={cand_mid_path}, last={cand_last_path})")

	# if dist.is_initialized():
	# dist.barrier()

	# # 3) 在线早停门控 + 子集续跑（不做离线分层评分/曲线）
	# if local_rank == 0:
	# with open(cand_mid_path, "rb") as f:
	# cand_mid_dict = pickle.load(f)
	# with open(cand_last_path, "rb") as f:
	# cand_last_dict = pickle.load(f)

	# rank_global = task_config.get("eval_type", "global") == "global"
	# print_master(f"[{dataset_name}] Run ONLINE early-exit at layer={ee_cfg['layer']}, method={ee_cfg['method']}, tau={ee_cfg['tau']}, topk={ee_cfg['topk']}, global={rank_global}")
	# run_early_exit_queries(
	# model=model,
	# processor=processor,
	# model_args=model_args,
	# data_args=data_args,
	# training_args=training_args,
	# qry_dataset=full_eval_qry_dataset, # 全量 query
	# cand_mid_dict=cand_mid_dict,
	# cand_last_dict=cand_last_dict,
	# ee_cfg=ee_cfg,
	# dataset_name=dataset_name,
	# out_dir=data_args.encode_output_path,
	# global_ranking=rank_global,
	# )

	# if dist.is_initialized():
	# dist.barrier()
	# # === EE-only 结束；直接进入下一个数据集 ===
	# continue


	# if __name__ == '__main__':
	# main()

	import datetime
	import logging
	import json
	import random
	import time
	import numpy as np
	import os
	import pickle
	import sys
	import torch
	import torch.distributed as dist
	import torch.nn.functional as F
	import yaml
	import transformers
	import math

	from torch.utils.data import DataLoader
	from tqdm import tqdm
	from transformers import HfArgumentParser, AutoConfig, AutoTokenizer
	from datasets import Dataset, concatenate_datasets
	from datasets.distributed import split_dataset_by_node
	from src.model.vlm_backbone.qwen2_vl.modeling_qwen2_vl_train_tokrnpooling import Qwen2VLForConditionalGeneration as _Qwen2VLForConditionalGeneration_src

	from src.arguments import ModelArguments, DataArguments, TrainingArguments
	from src.data.collator.eval_collator import MultimodalEvalDataCollator
	from src.data.eval_dataset.base_eval_dataset import AutoEvalPairDataset, generate_cand_dataset
	from src.eval_utils.metrics import RankingMetrics
	from src.model.model_cut_layer_AOP_add_text_cut import MMEBModel
	from src.model.processor import get_backbone_name, load_processor, COLPALI
	from src.utils import batch_to_device, print_rank, print_master

	from dataclasses import dataclass

	def get_env_mid_layer():
	v = os.environ.get("MID_LM_LAYER", "").strip()
	if v == "" or v.lower() in {"none", "null"}:
	return None
	try:
	return int(v)
	except:
	logger.warning(f"Invalid MID_LM_LAYER={v}, ignore.")
	return None

	# ------------- AOP-Prune config parsing -------------
	def _parse_bool(v: str, default=False):
	if v is None: return default
	v = v.strip().lower()
	return v in {"1","true","yes","y","t","on"}

	def _parse_float(v: str, default=None):
	try: return float(v) if v is not None else default
	except: return default

	def _parse_int(v: str, default=None):
	try: return int(v) if v is not None else default
	except: return default

	def get_env_aop_config():
	"""
	从环境变量读取 AOP 剪裁配置。仅作为“驱动层”的简要测试开关；
	实际剪裁逻辑在底模里（Qwen2-VLModel.forward）实现。
	"""
	enabled = _parse_bool(os.environ.get("AOP_ENABLED"), False)
	apply_to = os.environ.get("AOP_APPLY", "qry").strip().lower() # qry\|cand\|both
	layer_idx = _parse_int(os.environ.get("AOP_LAYER"), None)
	mode = os.environ.get("AOP_MODE", "delta").strip().lower()

	# 通用回退
	delta = _parse_float(os.environ.get("AOP_DELTA"), 0.10)
	khat = _parse_float(os.environ.get("AOP_KHAT"), 1.0)
	keep_ratio = _parse_float(os.environ.get("AOP_KEEP_RATIO"), 1.0)
	min_keep = _parse_int(os.environ.get("AOP_MIN_KEEP"), 64)
	use_bias = _parse_bool(os.environ.get("AOP_USE_BIAS"), True)

	# 按类型控制
	prune_vision = _parse_bool(os.environ.get("AOP_PRUNE_VISION"), True)
	prune_text = _parse_bool(os.environ.get("AOP_PRUNE_TEXT"), False)

	delta_v = _parse_float(os.environ.get("AOP_DELTA_VISION"), None)
	khat_v = _parse_float(os.environ.get("AOP_KHAT_VISION"), None)
	keep_ratio_v= _parse_float(os.environ.get("AOP_KEEP_RATIO_VISION"), None)
	min_keep_v = _parse_int(os.environ.get("AOP_MIN_KEEP_VISION"), None)

	delta_t = _parse_float(os.environ.get("AOP_DELTA_TEXT"), None)
	khat_t = _parse_float(os.environ.get("AOP_KHAT_TEXT"), None)
	keep_ratio_t= _parse_float(os.environ.get("AOP_KEEP_RATIO_TEXT"), None)
	min_keep_t = _parse_int(os.environ.get("AOP_MIN_KEEP_TEXT"), 32)

	protect_text_last = _parse_int(os.environ.get("AOP_PROTECT_TEXT_LAST"), 16)
	protect_special = _parse_bool(os.environ.get("AOP_PROTECT_SPECIAL"), True)

	margin_src = os.environ.get("AOP_MARGIN", "").strip().lower() # "" or "mid"
	attn_impl = os.environ.get("AOP_ATTN_IMPL", "").strip().lower() # "" or "sdpa"

	if layer_idx is None and enabled:
	logger.warning("AOP_ENABLED=1 但未设置 AOP_LAYER，关闭 AOP。"); enabled=False

	# 新增：选择策略（aop \| random）
	selection = os.environ.get("AOP_SELECTION", "aop").strip().lower()
	if _parse_bool(os.environ.get("AOP_RANDOM"), False):
	selection = "random"
	random_seed = _parse_int(os.environ.get("AOP_RANDOM_SEED"), None)

	# 选择策略：aop \| random \| attention
	selection = os.environ.get("AOP_SELECTION", "aop").strip().lower()
	if _parse_bool(os.environ.get("AOP_RANDOM"), False):
	selection = "random"
	random_seed = _parse_int(os.environ.get("AOP_RANDOM_SEED"), None)
	attn_agg = os.environ.get("AOP_ATTENTION_AGG", "mean").strip().lower() # mean\|max\|sum

	cfg = {
	"enabled": enabled,
	"apply_to": apply_to,
	"layer_idx": layer_idx,
	"mode": mode,

	# 回退
	"delta": delta, "K_hat": khat,
	"keep_ratio": keep_ratio, "min_keep": min_keep,
	"use_bias": use_bias, "eps": 1e-6,

	# 类型开关
	"prune_vision": prune_vision,
	"prune_text": prune_text,

	# 视觉桶
	"delta_vision": delta_v,
	"K_hat_vision": khat_v,
	"keep_ratio_vision": keep_ratio_v,
	"min_keep_vision": min_keep_v,

	# 文本桶
	"delta_text": delta_t,
	"K_hat_text": khat_t,
	"keep_ratio_text": keep_ratio_t,
	"min_keep_text": min_keep_t,

	# 文本保护
	"protect_text_last": protect_text_last,
	"protect_special": protect_special,

	# 可选：排名安全预算
	"margin_mid": None if margin_src != "mid" else "USE_MID_MARGIN",
	"epsilon_hat": None,
	"attn_impl_override": attn_impl if attn_impl in {"sdpa"} else "",

	# NEW: 选择策略
	"selection": selection, # "aop" 或 "random"
	"random_seed": random_seed, # 可选
	"attn_agg": attn_agg,
	}
	return cfg

	def get_env_eval_layers():
	"""
	解析环境变量 LM_LAYERS（优先）或兼容旧的 MID_LM_LAYER。
	- LM_LAYERS 示例："4,8,12,last"；可包含 'last'/'none'/'null'/'-1' 表示最后一层(None)。
	- 若未设置 LM_LAYERS，则回落到旧逻辑：MID_LM_LAYER=None -> [None]；否则 [mid, None]
	返回: list[ int \| None ]，例如 [4, 8, 12, None]；None 代表最后一层。
	"""
	v = os.environ.get("LM_LAYERS", None)
	if v is not None:
	v = v.strip()

	if v:
	toks = [t.strip() for t in v.split(',') if t.strip() != ""]
	layers = []
	for tok in toks:
	tl = tok.lower()
	if tl in {"last", "none", "null", "-1"}:
	layers.append(None)
	else:
	try:
	val = int(tok)
	if val > 0:
	layers.append(val)
	else:
	logger.warning(f"Ignoring non-positive layer '{tok}' in LM_LAYERS.")
	except Exception:
	logger.warning(f"Invalid token '{tok}' in LM_LAYERS; must be int or 'last'/'none'.")
	# 去重但保持顺序
	seen = set()
	uniq = []
	for l in layers:
	key = -1 if l is None else l
	if key in seen:
	continue
	seen.add(key)
	uniq.append(l)
	if not uniq:
	return [None]
	return uniq
	else:
	# 兼容旧逻辑
	mid = get_env_mid_layer()
	return [None] if mid is None else [mid, None]

	# === Early-Exit config & helpers ===
	def get_env_ee_config():
	ee_enabled = os.environ.get("EE_ENABLED", "0").strip().lower() in {"1","true","yes","on","y","t"}
	layer = int(os.environ.get("EE_LAYER", os.environ.get("AOP_LAYER", "12"))) # 默认用 AOP_LAYER
	method = os.environ.get("EE_METHOD", "margin").strip().lower() # margin\|p1p2\|entropy\|gini\|combined
	tau = float(os.environ.get("EE_TAU", "0.2"))
	topk = int(os.environ.get("EE_TOPK", "1024"))
	temp = float(os.environ.get("EE_TEMP", "0.05"))
	save = os.environ.get("EE_SAVE", "1").strip().lower() in {"1","true","yes","on","y","t"}
	combw = os.environ.get("EE_COMB_WEIGHTS", "1.0,0.5,0.5")
	try:
	w_margin, w_conf, w_sq = [float(x) for x in combw.split(",")]
	except Exception:
	w_margin, w_conf, w_sq = 1.0, 0.5, 0.5
	return dict(
	enabled=ee_enabled, layer=layer, method=method, tau=tau,
	topk=topk, temp=temp, save=save,
	w_margin=w_margin, w_conf=w_conf, w_sq=w_sq
	)

	def _softmax_np(x: np.ndarray, temp: float = 1.0) -> np.ndarray:
	x = x - np.max(x)
	ex = np.exp(x / max(1e-6, temp))
	s = np.sum(ex)
	return ex / max(s, 1e-12)

	def confidence_from_topk(scores: np.ndarray, method="margin", temp=0.05, w_margin=1.0, w_conf=0.5, w_sq=0.5) -> float:
	# scores: 已按降序排列（topK）
	if scores.size == 0:
	return 0.0
	if scores.size == 1:
	return 1e9
	margin = float(scores[0] - scores[1])
	p = _softmax_np(scores, temp=temp)
	p1p2 = float(p[0] - p[1])
	H = - float(np.sum(p * np.log(p + 1e-12))) / np.log(len(p)) # 归一化熵 ∈ [0,1]
	conf = 1.0 - H
	sqsum = float(np.sum(p**2)) # Gini 的等价度量（越大越集中）
	if method == "margin": return margin
	if method == "p1p2": return p1p2
	if method == "entropy": return conf
	if method == "gini": return sqsum
	# combined
	return w_marginmargin + w_confconf + w_sq*sqsum

	def run_early_exit_queries(
	model: MMEBModel,
	processor,
	model_args: ModelArguments,
	data_args: DataArguments,
	training_args: TrainingArguments,
	qry_dataset: Dataset,
	cand_mid_dict: dict,
	cand_last_dict: dict,
	ee_cfg: dict,
	dataset_name: str,
	out_dir: str,
	global_ranking: bool = True,
	):
	"""
	仅在线早停推理（不画曲线），并额外输出：
	- 每个 query 的中间层 vs cand_last 的 top-K 相似度 (mid2last)
	- 对未早停的 query，再输出最后一层 vs cand_last 的 top-K 相似度 (last2last)

	输出文件：
	{out_dir}/{dataset}_score_earlyexit.json - 检索指标
	{out_dir}/{dataset}_pred_earlyexit.jsonl - 预测列表（原有）
	{out_dir}/{dataset}_sim_earlyexit.jsonl - 本函数新增的相似度信息（需 EE_SAVE=1）
	"""
	device = training_args.device
	local_rank = dist.get_rank() if dist.is_initialized() else 0
	is_main = (not dist.is_initialized()) or (local_rank == 0)

	# 候选矩阵
	cand_ids = list(cand_mid_dict.keys())
	cand_id2row = {str(cid): i for i, cid in enumerate(cand_ids)}

	cand_mid = np.stack([cand_mid_dict[c] for c in cand_ids]).astype(np.float32)
	cand_last = np.stack([cand_last_dict[c] for c in cand_ids]).astype(np.float32)

	cand_mid_t = torch.from_numpy(cand_mid).to(device=device, dtype=torch.bfloat16)
	cand_last_t = torch.from_numpy(cand_last).to(device=device, dtype=torch.bfloat16)

	# query DataLoader
	collator = MultimodalEvalDataCollator(processor, model_args, data_args, "qry")
	loader = DataLoader(
	qry_dataset,
	batch_size=training_args.per_device_eval_batch_size,
	collate_fn=collator,
	num_workers=training_args.dataloader_num_workers
	)

	pred_dicts = []

	# 是否保存相似度（沿用 EE_SAVE）
	save_scores = ee_cfg.get("save", False)
	topk_sim = int(ee_cfg.get("topk", 1024))
	sim_records = [] if (save_scores and is_main) else None

	# AOP 按侧开启
	aop_cfg = getattr(model.encoder, "aop_prune_config", None)
	_orig_enabled = None
	side_enable = True
	if isinstance(aop_cfg, dict) and aop_cfg:
	_orig_enabled = aop_cfg.get("enabled", False)
	apply_to = aop_cfg.get("apply_to", "qry")
	side_enable = (apply_to == "both") or (apply_to == "qry")

	# 门控相关
	k_conf = 2
	tau = float(ee_cfg["tau"])
	method= ee_cfg["method"]
	temp = float(ee_cfg["temp"])

	idx_global = 0
	start_time = time.time()

	for inputs, infos in tqdm(
	loader,
	desc=f"[EE] {dataset_name}@L{ee_cfg['layer']} (rank {local_rank})",
	disable=local_rank > 0,
	):
	inputs = batch_to_device(inputs, device)

	# -------- 1) 跑到中间层（stop_at_layer），不算 logits --------
	orig_cfg = None
	if isinstance(aop_cfg, dict) and aop_cfg:
	orig_cfg = dict(aop_cfg)
	aop_layer = aop_cfg.get("layer_idx", None)
	ee_layer = int(ee_cfg["layer"])
	apply_to = aop_cfg.get("apply_to", "qry").strip().lower()
	aop_on_mid = bool(
	_orig_enabled and side_enable and
	(aop_layer is not None) and (aop_layer < ee_layer) and
	(apply_to in {"qry", "both"})
	)
	aop_cfg_mid = dict(aop_cfg)
	aop_cfg_mid["enabled"] = aop_on_mid
	setattr(model.encoder, "aop_prune_config", aop_cfg_mid)

	with torch.no_grad(), torch.autocast(
	device_type="cuda", dtype=torch.bfloat16, enabled=True
	):
	out_mid = model.encoder(
	**inputs,
	return_dict=True,
	output_hidden_states=False,
	stop_at_layer=int(ee_cfg["layer"]),
	compute_lm_head=False,
	)

	if isinstance(orig_cfg, dict):
	setattr(model.encoder, "aop_prune_config", orig_cfg)

	# EOS pooling 得到中间层表征
	hs_mid = getattr(out_mid, "last_hidden_state", None)
	if hs_mid is None:
	assert out_mid.hidden_states is not None and len(out_mid.hidden_states) > 0
	hs_mid = out_mid.hidden_states[-1]
	am_mid = getattr(out_mid, "attention_mask", None)
	if am_mid is None:
	am_mid = inputs.get("attention_mask", None)
	if hasattr(am_mid, "device") and am_mid.device != hs_mid.device:
	am_mid = am_mid.to(hs_mid.device)
	reps_mid_t = model._pooling(hs_mid, am_mid).detach().to(device=device, dtype=torch.bfloat16) # [B,D]

	B = reps_mid_t.size(0)
	use_local = (not global_ranking)

	# -------- 2) 门控：基于 mid→mid 的 top2 分数 --------
	if not use_local:
	# 全库：cand_mid_t
	scores_t = reps_mid_t @ cand_mid_t.T # [B, Nc]
	vals_t, idxs_t = torch.topk(
	scores_t, k=min(k_conf, scores_t.size(1)), dim=1
	) # [B,2]
	p_t = torch.softmax(vals_t / max(temp, 1e-6), dim=1)
	if vals_t.size(1) >= 2:
	margin_t = vals_t[:, 0] - vals_t[:, 1]
	p1p2_t = p_t[:, 0] - p_t[:, 1]
	else:
	margin_t = torch.full((B,), float("inf"), device=device, dtype=vals_t.dtype)
	p1p2_t = torch.ones(B, device=device, dtype=vals_t.dtype)
	H_t = -(p_t * (torch.log(p_t + 1e-12))).sum(dim=1) / math.log(max(vals_t.size(1),1))
	conf_map = {
	"margin": margin_t,
	"p1p2": p1p2_t,
	"entropy": 1.0 - H_t,
	"gini": (p_t ** 2).sum(dim=1),
	}
	confs_t = conf_map.get(method, margin_t)
	exit_mask = (confs_t >= tau).detach().cpu().numpy().astype(bool)
	else:
	# local：对每个 query 单独用 cand_mid_t[rows]
	confs = []
	for b in range(B):
	cand_local = infos[b]["cand_names"]
	rows = [cand_id2row.get(str(cid), -1) for cid in cand_local]
	rows = [r for r in rows if r >= 0]
	if len(rows) == 0:
	confs.append(0.0)
	continue
	cmat_t = cand_mid_t[rows] # [Nl, D]
	sv_t = (reps_mid_t[b:b+1] @ cmat_t.T)[0] # [Nl]
	k = 2 if sv_t.size(0) >= 2 else 1
	vals_t, _ = torch.topk(sv_t, k=k, dim=0)
	p_t = torch.softmax(vals_t / max(temp, 1e-6), dim=0)
	if k >= 2:
	margin = (vals_t[0] - vals_t[1]).item()
	p1p2 = (p_t[0] - p_t[1]).item()
	else:
	margin, p1p2 = float("inf"), 1.0
	H = (-(p_t * (torch.log(p_t + 1e-12))).sum() / math.log(max(k,1))).item()
	gini = ((p_t ** 2).sum()).item()
	d = {"margin": margin, "p1p2": p1p2, "entropy": 1.0 - H, "gini": gini}
	confs.append(d.get(method, margin))
	exit_mask = (np.array(confs) >= tau)

	# -------- 3) 检索 + 相似度记录 --------
	# 早停样本
	exit_indices = np.where(exit_mask)[0].tolist()
	# 续跑样本
	need_indices = np.where(~exit_mask)[0].tolist()

	# A. 早停：直接用 mid→mid 排序，但我们额外算 mid→last 的 top-K 相似度
	for j in exit_indices:
	# 1) 排序（pred_dicts）
	if not use_local:
	scores_mid_mid = (reps_mid_t[j:j+1] @ cand_mid_t.T)[0] # [Nc]
	order = torch.argsort(scores_mid_mid, dim=0, descending=True).detach().cpu().numpy()
	cids = [cand_ids[i] for i in order]
	else:
	cand_local = infos[j]["cand_names"]
	rows = [cand_id2row.get(str(cid), -1) for cid in cand_local]
	rows = [r for r in rows if r >= 0]
	if len(rows) == 0:
	cids = []
	else:
	cmat_t = cand_mid_t[rows]
	sv = (reps_mid_t[j:j+1] @ cmat_t.T)[0]
	order_local = torch.argsort(sv, dim=0, descending=True).detach().cpu().numpy()
	cids = [str(cand_local[i]) for i in order_local]
	rel_docids = infos[j]["label_name"]
	if not isinstance(rel_docids, list):
	rel_docids = [rel_docids]
	pred_dicts.append({"prediction": cids, "label": rel_docids, "rel_scores": None})

	# 2) 相似度记录：mid→last
	if save_scores and is_main:
	if not use_local:
	scores_mid_last = (reps_mid_t[j:j+1] @ cand_last_t.T)[0].detach().float().cpu() # [Nc]
	Nc = scores_mid_last.size(0)
	K = min(topk_sim, Nc)
	mid_vals, mid_inds = torch.topk(scores_mid_last, k=K, dim=0)
	mid_ids = [cand_ids[i] for i in mid_inds.tolist()]
	else:
	cand_local = infos[j]["cand_names"]
	rows = [cand_id2row.get(str(cid), -1) for cid in cand_local]
	rows = [r for r in rows if r >= 0]
	if len(rows) == 0:
	mid_vals = torch.empty(0)
	mid_ids = []
	else:
	cmat_last = cand_last_t[rows] # [Nl, D]
	sv_last = (reps_mid_t[j:j+1] @ cmat_last.T)[0].detach().float().cpu()
	K = min(topk_sim, sv_last.size(0))
	mid_vals, mid_inds = torch.topk(sv_last, k=K, dim=0)
	mid_ids = [str(cand_local[i]) for i in mid_inds.tolist()]

	rec = {
	"qid": int(idx_global + j),
	"early_exit": True,
	"mid_topk_scores": mid_vals.tolist() if mid_vals.numel() > 0 else [],
	"mid_topk_cand_ids": mid_ids,
	"last_topk_scores": None,
	"last_topk_cand_ids": None,
	}
	sim_records.append(rec)

	# B. 续跑：mid->last，再用 last→last 排序；同时记录 mid→last & last→last 相似度
	if len(need_indices) > 0:
	# 从中间态恢复
	if isinstance(aop_cfg, dict) and aop_cfg:
	aop_resume = dict(aop_cfg)
	aop_resume["enabled"] = bool(_orig_enabled and side_enable)
	setattr(model.encoder, "aop_prune_config", aop_resume)

	interm = getattr(out_mid, "intermediate_state", None)
	assert interm is not None, "Model must return intermediate_state when stop_at_layer is set."

	hs = interm["hidden_states"].detach()
	am = interm["attention_mask"].detach()
	pos = interm["position_ids"].detach()
	vm = interm.get("vision_mask", None)
	tm = interm.get("text_mask", None)
	next_layer = int(interm["next_layer_idx"])

	hs_sub = hs[need_indices]
	am_sub = am[need_indices]
	pos_sub = pos[:, need_indices, :]
	vm_sub = vm[need_indices] if vm is not None else None
	tm_sub = tm[need_indices] if tm is not None else None
	resume_state = {
	"hidden_states": hs_sub,
	"attention_mask": am_sub,
	"position_ids": pos_sub,
	"vision_mask": vm_sub,
	"text_mask": tm_sub,
	"next_layer_idx": next_layer,
	}

	with torch.no_grad(), torch.autocast(
	device_type="cuda", dtype=torch.bfloat16, enabled=True
	):
	out_last = model.encoder(
	return_dict=True,
	output_hidden_states=False,
	stop_at_layer=None,
	resume_state=resume_state,
	compute_lm_head=False,
	)

	hs_last = getattr(out_last, "last_hidden_state", None)
	if hs_last is None:
	assert out_last.hidden_states is not None and len(out_last.hidden_states) > 0
	hs_last = out_last.hidden_states[-1]
	am_last = getattr(out_last, "attention_mask", None)
	if am_last is None:
	am_last = am_sub
	if hasattr(am_last, "device") and am_last.device != hs_last.device:
	am_last = am_last.to(hs_last.device)

	reps_last_t = model._pooling(hs_last, am_last).detach().to(device=device, dtype=torch.bfloat16)

	if not use_local:
	scores_last_all = (reps_last_t @ cand_last_t.T).detach().float().cpu() # [N_need, Nc]
	for k, j in enumerate(need_indices):
	# 1) 排序预测
	row = scores_last_all[k]
	order = torch.argsort(row, dim=0, descending=True).tolist()
	cids = [cand_ids[i] for i in order]
	rel_docids = infos[j]["label_name"]
	if not isinstance(rel_docids, list):
	rel_docids = [rel_docids]
	pred_dicts.append({"prediction": cids, "label": rel_docids, "rel_scores": None})

	# 2) mid→last & last→last 相似度
	if save_scores and is_main:
	# mid2last
	scores_mid_last = (reps_mid_t[j:j+1] @ cand_last_t.T)[0].detach().float().cpu()
	Nc = scores_mid_last.size(0)
	K = min(topk_sim, Nc)
	mid_vals, mid_inds = torch.topk(scores_mid_last, k=K, dim=0)
	mid_ids = [cand_ids[i] for i in mid_inds.tolist()]

	# last2last
	last_row = row
	last_vals, last_inds = torch.topk(last_row, k=K, dim=0)
	last_ids = [cand_ids[i] for i in last_inds.tolist()]

	rec = {
	"qid": int(idx_global + j),
	"early_exit": False,
	"mid_topk_scores": mid_vals.tolist(),
	"mid_topk_cand_ids": mid_ids,
	"last_topk_scores": last_vals.tolist(),
	"last_topk_cand_ids": last_ids,
	}
	sim_records.append(rec)
	else:
	# local ranking
	for k, j in enumerate(need_indices):
	cand_local = infos[j]["cand_names"]
	rows = [cand_id2row.get(str(cid), -1) for cid in cand_local]
	rows = [r for r in rows if r >= 0]
	if len(rows) == 0:
	cids = []
	rel_docids = infos[j]["label_name"]
	if not isinstance(rel_docids, list):
	rel_docids = [rel_docids]
	pred_dicts.append({"prediction": cids, "label": rel_docids, "rel_scores": None})
	if save_scores and is_main:
	rec = {
	"qid": int(idx_global + j),
	"early_exit": False,
	"mid_topk_scores": [],
	"mid_topk_cand_ids": [],
	"last_topk_scores": [],
	"last_topk_cand_ids": [],
	}
	sim_records.append(rec)
	continue

	# 1) 排序（last→last）
	cmat_last = cand_last_t[rows]
	sv_last = (reps_last_t[k:k+1] @ cmat_last.T)[0].detach().float().cpu()
	order_local = torch.argsort(sv_last, dim=0, descending=True).tolist()
	cids = [str(cand_local[i]) for i in order_local]
	rel_docids = infos[j]["label_name"]
	if not isinstance(rel_docids, list):
	rel_docids = [rel_docids]
	pred_dicts.append({"prediction": cids, "label": rel_docids, "rel_scores": None})

	# 2) mid→last & last→last 相似度
	if save_scores and is_main:
	cmat_last = cand_last_t[rows]
	# mid2last
	sv_mid_last = (reps_mid_t[j:j+1] @ cmat_last.T)[0].detach().float().cpu()
	K = min(topk_sim, sv_mid_last.size(0))
	mid_vals, mid_inds = torch.topk(sv_mid_last, k=K, dim=0)
	mid_ids = [str(cand_local[i]) for i in mid_inds.tolist()]
	# last2last
	sv_last_row = sv_last
	last_vals, last_inds = torch.topk(sv_last_row, k=K, dim=0)
	last_ids = [str(cand_local[i]) for i in last_inds.tolist()]

	rec = {
	"qid": int(idx_global + j),
	"early_exit": False,
	"mid_topk_scores": mid_vals.tolist(),
	"mid_topk_cand_ids": mid_ids,
	"last_topk_scores": last_vals.tolist(),
	"last_topk_cand_ids": last_ids,
	}
	sim_records.append(rec)

	idx_global += B

	# -------- 4) 评测 + 写出 --------
	metrics_to_report = ["hit", "ndcg", "precision", "recall", "f1", "map", "mrr"]
	score = RankingMetrics(metrics_to_report).evaluate(pred_dicts)

	if is_main:
	os.makedirs(out_dir, exist_ok=True)
	# 原有的 early-exit 检索结果
	with open(os.path.join(out_dir, f"{dataset_name}_score_earlyexit.json"), "w") as f:
	json.dump(score, f, indent=4)
	if ee_cfg.get("save", False):
	with open(os.path.join(out_dir, f"{dataset_name}_pred_earlyexit.jsonl"), "w", encoding="utf-8") as f:
	for row in pred_dicts:
	f.write(json.dumps(row, ensure_ascii=False) + "\n")
	# 新增的 mid/last 相似度输出
	if save_scores and sim_records is not None:
	sims_path = os.path.join(out_dir, f"{dataset_name}_sim_earlyexit.jsonl")
	with open(sims_path, "w", encoding="utf-8") as f:
	for rec in sim_records:
	f.write(json.dumps(rec, ensure_ascii=False) + "\n")
	print_master(f"[EE] Saved mid/last similarity records -> {sims_path}")

	elapsed = time.time() - start_time
	return score, elapsed

	def make_layer_tag(keep_layers: int \| None):
	return f"layer{keep_layers}" if keep_layers and keep_layers > 0 else "layerlast"

	def dot_sim(a: np.ndarray, b: np.ndarray) -> np.ndarray:
	# a: [Nq, D], b: [Nc, D], both L2-normalized already if normalize=true
	return a @ b.T

	def build_score_details(qid: int, cand_ids: list, score_vec: np.ndarray, ranked_indices: np.ndarray):
	return {
	"qid": int(qid),
	"cand_scores": [
	{"cand_id": str(cand_ids[i]), "score": float(score_vec[i])}
	for i in ranked_indices
	]
	}

	def top1_top2_margin(score_vec: np.ndarray) -> float:
	if len(score_vec) < 2:
	return float("inf") # 只有一个候选时视作极大margin
	top2 = np.partition(score_vec, -2)[-2:]
	top2.sort()
	return float(top2[-1] - top2[-2])

	def simulate_early_exit_by_margin(
	sims_mid: list[dict], sims_last: list[dict], labels: list[list[str]], metrics_to_report: list[str],
	taus: list[float], rank_global: bool
	):
	"""
	sims_mid / sims_last: 每个query一个dict: {cand_id: score}
	labels: 每个query的正样本cand_id列表
	返回：不同tau下的覆盖率、指标
	"""
	assert len(sims_mid) == len(sims_last) == len(labels)
	N = len(labels)
	results = []

	from src.eval_utils.metrics import RankingMetrics
	metrics = RankingMetrics(metrics_to_report)

	# 预构造用于metrics.evaluate 的pred_dict
	def to_pred_dicts(use_mid_mask: list[bool]) -> list[dict]:
	pred_dicts = []
	for qid in range(N):
	sims_use = sims_mid[qid] if use_mid_mask[qid] else sims_last[qid]
	# 排序
	ranked = sorted(sims_use.items(), key=lambda x: -x[1])
	pred_dicts.append({
	"prediction": [cid for cid, _ in ranked],
	"label": labels[qid],
	"rel_scores": None
	})
	return pred_dicts

	# 计算中间层margin
	margins = []
	for qid in range(N):
	# 取前两大分数的margin
	if len(sims_mid[qid]) == 0:
	margins.append(0.0)
	continue
	scores = np.array(list(sims_mid[qid].values()), dtype=np.float32)
	margins.append(top1_top2_margin(scores))

	margins = np.array(margins, dtype=np.float32)

	for tau in taus:
	use_mid_mask = (margins >= tau).tolist()
	pred_dicts = to_pred_dicts(use_mid_mask)
	score_dict = metrics.evaluate(pred_dicts)
	coverage = float(np.mean(use_mid_mask)) # 早停覆盖率
	results.append({
	"tau": tau,
	"coverage": coverage,
	**score_dict
	})
	return results

	def top1_top2_margin_from_array(score_vec: np.ndarray) -> float:
	if score_vec is None or len(score_vec) == 0:
	return 0.0
	if len(score_vec) == 1:
	return float('inf')
	# 取前两大
	top2 = np.partition(score_vec, -2)[-2:]
	top2.sort()
	return float(top2[-1] - top2[-2])

	logging.basicConfig(level=logging.INFO, format='[%(asctime)s] %(levelname)s [%(name)s:%(lineno)s] %(message)s')
	logger = logging.getLogger(__name__)

	# --- Global Dictionaries for Hooks (will be cleared before each encode_embeddings call) ---
	timing_info = {}
	token_info = {
	"vision_tokens": 0,
	"text_input_tokens": 0, # Refers to the original text token count
	"text_output_tokens": 0, # Not directly applicable here as we are encoding, not generating. Will be 0.
	"total_llm_input_tokens": 0, # Refers to the total tokens LLM receives (visual + formatted text)
	}

	# --- Hook Functions Definition ---
	def timing_pre_hook(module, input):
	module_id = id(module)
	if module_id not in timing_info:
	timing_info[module_id] = []
	timing_info[module_id].append((time.time(), 'pre', module.__class__.__name__))

	def timing_post_hook(module, input, output):
	module_id = id(module)
	if module_id not in timing_info:
	# print(f"Warning: No pre-hook data for module {module.__class__.__name__} ({module_id})")
	return

	timing_info[module_id].append((time.time(), 'post', module.__class__.__name__))

	# Collect vision token count (only from Vision Transformer module's post hook)
	module_name = module.__class__.__name__
	if "vision" in module_name.lower() and "transformer" in module_name.lower():
	if isinstance(output, torch.Tensor):
	token_info["vision_tokens"] = output.shape[0] # For visual features, usually (batch_size, num_tokens, hidden_dim)
	elif hasattr(output, 'last_hidden_state'):
	token_info["vision_tokens"] = output.last_hidden_state.shape[1]


	def register_model_hooks(model):
	registered_modules = []

	core_model = model.encoder if hasattr(model, "encoder") and model.encoder is not None else model

	# Vision module
	if hasattr(core_model, 'visual') and core_model.visual is not None:
	vision_module = core_model.visual
	vision_module.register_forward_pre_hook(timing_pre_hook)
	vision_module.register_forward_hook(timing_post_hook)
	registered_modules.append(vision_module)
	print_master(f"Registered hooks for vision module: {vision_module.__class__.__name__}")
	else:
	print_master(f"WARNING: No 'visual' attribute found on core_model ({type(core_model)}).")


	# Merger module (if inside visual) - it's part of the vision component
	if hasattr(core_model, 'visual') and hasattr(core_model.visual, 'merger') and core_model.visual.merger is not None:
	merger_module = core_model.visual.merger
	merger_module.register_forward_pre_hook(timing_pre_hook)
	merger_module.register_forward_hook(timing_post_hook)
	registered_modules.append(merger_module)
	print_master(f"Registered hooks for merger module: {merger_module.__class__.__name__}")
	else:
	print_master(f"WARNING: No 'merger' attribute found on core_model.visual ({type(getattr(core_model, 'visual', 'N/A'))}).")

	# Language model body
	if hasattr(core_model, 'model') and core_model.model is not None:
	llm_main_module = core_model.model
	llm_main_module.register_forward_pre_hook(timing_pre_hook)
	llm_main_module.register_forward_hook(timing_post_hook)
	registered_modules.append(llm_main_module)
	print_master(f"Registered hooks for LLM main module: {llm_main_module.__class__.__name__}")
	else:
	print_master(f"WARNING: No 'model' attribute found on core_model ({type(core_model)}).")


	# LM Head
	if hasattr(core_model, 'lm_head') and core_model.lm_head is not None:
	lm_head_module = core_model.lm_head
	lm_head_module.register_forward_pre_hook(timing_pre_hook)
	lm_head_module.register_forward_hook(timing_post_hook)
	registered_modules.append(lm_head_module)
	print_master(f"Registered hooks for LM head module: {lm_head_module.__class__.__name__}")
	else:
	print_master(f"WARNING: No 'lm_head' attribute found on core_model ({type(core_model)}).")


	if not registered_modules:
	print_master("Warning: No major modules found for hook registration. Check model architecture.")
	return registered_modules


	def pad_dataset_to_divisible(dataset, world_size):
	num_samples = len(dataset)
	if num_samples % world_size == 0:
	return dataset, num_samples

	num_to_add = world_size - (num_samples % world_size)
	padded_size = num_samples + num_to_add

	padding_data = dataset.select([i % len(dataset) for i in range(num_to_add)])
	padded_dataset = concatenate_datasets([dataset, padding_data])
	return padded_dataset, padded_size

	def encode_embeddings(
	model: MMEBModel,
	loader: DataLoader,
	training_args: TrainingArguments,
	model_args: ModelArguments,
	full_dataset: Dataset,
	encode_side: str,
	description: str = "Encoding"
	) -> tuple[np.ndarray, list, list, list]: # CHANGED: + list for img_token_masks
	"""
	Encodes embeddings for a given dataset using the model, handling both standard and
	late-interaction models in a DDP-safe manner.
	Returns:
	- embeddings: np.ndarray
	- infos_or_ids: list
	- batch_stats_list: list
	- img_token_masks: list[None \| list[bool]] # NEW
	"""
	local_rank = dist.get_rank() if dist.is_initialized() else 0
	world_size = dist.get_world_size() if dist.is_initialized() else 1

	# Check if the model is a late-interaction type
	is_late_interaction = (model_args.model_backbone == COLPALI)

	local_embeds = []
	local_gt_infos = []
	local_max_len = 0

	# --- New: List to store statistics for each batch ---
	batch_stats_list = []

	# --- NEW: Collect masks ---
	local_img_token_masks = [] # post image mask per sample
	local_txt_token_masks = [] # NEW: post text mask per sample
	local_post_attn_masks = [] # NEW: post attention_mask per sample (after prune, 1/0)

	# --- NEW: per-sample token reduction records ---
	local_token_records = [] # 每条样本一个 dict，含 pre/post/delta 数量

	model.eval()

	# Register hooks for the model once per encode_embeddings call
	registered_hooks = register_model_hooks(model)

	# --- NEW: helpers to取mask并序列化 ---
	def _search_key(obj, key: str):
	# 递归搜索 dict/list/tuple，找到指定 key
	if isinstance(obj, dict):
	if key in obj:
	return obj[key]
	for v in obj.values():
	r = _search_key(v, key)
	if r is not None:
	return r
	elif isinstance(obj, (list, tuple)):
	for v in obj:
	r = _search_key(v, key)
	if r is not None:
	return r
	return None

	def _to_serializable_mask_list(mask_list, batch_size: int):
	# 将模型返回的 mask（list/tensor/ndarray/None）转成 [None \| list[bool]] * B
	if mask_list is None:
	return [None] * batch_size

	out = []
	if isinstance(mask_list, (list, tuple)):
	for m in mask_list:
	if m is None:
	out.append(None)
	elif torch.is_tensor(m):
	out.append(m.detach().cpu().tolist())
	elif isinstance(m, np.ndarray):
	out.append(m.tolist())
	else:
	# already python list/bool
	out.append(m)
	elif torch.is_tensor(mask_list):
	# 若是 2D 张量（B, L），直接 tolist() -> list[list[bool/int]]
	out = mask_list.detach().cpu().tolist()
	elif isinstance(mask_list, np.ndarray):
	out = mask_list.tolist()
	else:
	# 未知类型，保守返回 None 占位
	out = [None] * batch_size

	# 长度对齐 batch_size
	if isinstance(out, list):
	if len(out) < batch_size:
	out = out + [None] * (batch_size - len(out))
	elif len(out) > batch_size:
	out = out[:batch_size]
	return out

	def _to_bool_lists(m, batch_size: int):
	lst = _to_serializable_mask_list(m, batch_size)
	# 归一化成 list[ list[bool] \| None ]
	out = []
	for x in lst:
	if x is None:
	out.append(None)
	else:
	# x 可能是 list[int] 或 list[bool]
	out.append([bool(int(v)) for v in x])
	return out

	with torch.no_grad():
	for inputs, dataset_info in tqdm(loader, desc=f"{description} (rank {local_rank})", disable=local_rank > 0):
	# --- Reset statistics for each inference pass ---
	timing_info.clear()
	token_info["vision_tokens"] = 0
	token_info["text_input_tokens"] = 0
	token_info["text_output_tokens"] = 0
	token_info["total_llm_input_tokens"] = 0

	inputs = batch_to_device(inputs, training_args.device)
	current_batch_size = inputs['input_ids'].shape[0] if 'input_ids' in inputs and inputs['input_ids'] is not None else 1

	with torch.autocast(enabled=True, dtype=torch.bfloat16, device_type="cuda"):
	start_inference_time = time.time()
	# ---- NEW: 按侧开/关 AOP ----
	aop_cfg = getattr(model.encoder, "aop_prune_config", None)
	_orig_enabled = None
	if isinstance(aop_cfg, dict) and aop_cfg:
	_orig_enabled = aop_cfg.get("enabled", False)
	apply_to = aop_cfg.get("apply_to", "qry")
	side_enable = (apply_to == "both") or (apply_to == encode_side)
	aop_cfg["enabled"] = bool(side_enable and _orig_enabled)
	setattr(model.encoder, "aop_prune_config", aop_cfg)
	if encode_side == "qry":
	output = model(qry=inputs)
	reps = output["qry_reps"].detach()
	local_gt_infos.extend(dataset_info)
	else:
	output = model(tgt=inputs)
	reps = output["tgt_reps"].detach()
	local_gt_infos.extend([info["cand_name"] for info in dataset_info])
	# ---- NEW: 恢复 enabled（避免影响下个 encode_side）----
	if isinstance(aop_cfg, dict) and _orig_enabled is not None:
	aop_cfg["enabled"] = _orig_enabled
	setattr(model.encoder, "aop_prune_config", aop_cfg)
	end_inference_time = time.time()

	# --- NEW: 提取 post-prune 的 image/text 掩码与 post attention_mask ---
	img_masks_raw = None
	txt_masks_raw = None
	post_attn_raw = None

	if isinstance(output, dict):
	img_masks_raw = _search_key(output, "image_token_bool_masks")
	txt_masks_raw = _search_key(output, "text_token_bool_masks") # NEW
	post_attn_raw = _search_key(output, "post_attention_mask") # NEW（我们的 MMEBModel.forward 里带了这个键）

	# 兼容：若挂在 model 上
	if img_masks_raw is None and hasattr(model, "image_token_bool_masks"):
	img_masks_raw = getattr(model, "image_token_bool_masks")
	if txt_masks_raw is None and hasattr(model, "text_token_bool_masks"):
	txt_masks_raw = getattr(model, "text_token_bool_masks")
	if post_attn_raw is None and hasattr(model, "post_attention_mask"):
	post_attn_raw = getattr(model, "post_attention_mask")

	img_masks_serializable = _to_serializable_mask_list(img_masks_raw, current_batch_size)
	txt_masks_serializable = _to_serializable_mask_list(txt_masks_raw, current_batch_size) # NEW
	post_attn_serializable = _to_serializable_mask_list(post_attn_raw, current_batch_size) # NEW

	local_img_token_masks.extend(img_masks_serializable)
	local_txt_token_masks.extend(txt_masks_serializable) # NEW
	local_post_attn_masks.extend(post_attn_serializable) # NEW

	# --- NEW: 计算本 batch 的 pre/post/delta 数量并累计 ---
	cfg = getattr(model.encoder, "config", None)
	# pre masks 来自 inputs（删前）
	input_ids = inputs.get("input_ids", None)
	attn2d_pre = inputs.get("attention_mask", None)
	if input_ids is None or attn2d_pre is None or cfg is None:
	# 无法统计，留空
	pre_vis_counts = [0] * current_batch_size
	pre_txt_counts = [0] * current_batch_size
	pre_tot_counts = [0] * current_batch_size
	else:
	iid = input_ids
	am = attn2d_pre.to(torch.bool)
	image_token_id = getattr(cfg, "image_token_id", None)
	video_token_id = getattr(cfg, "video_token_id", None)
	bos_id = getattr(cfg, "bos_token_id", None)
	eos_id = getattr(cfg, "eos_token_id", None)
	pad_id = getattr(cfg, "pad_token_id", None)

	is_image = (iid == image_token_id) if (image_token_id is not None and image_token_id >= 0) else torch.zeros_like(iid, dtype=torch.bool)
	is_video = (iid == video_token_id) if (video_token_id is not None and video_token_id >= 0) else torch.zeros_like(iid, dtype=torch.bool)
	is_vision = is_image \| is_video

	is_special = torch.zeros_like(iid, dtype=torch.bool)
	for tid in [bos_id, eos_id, pad_id]:
	if tid is not None and tid >= 0:
	is_special \|= (iid == tid)

	pre_txt_mask = am & (~is_vision) & (~is_special)
	pre_vis_mask = am & is_vision

	pre_vis_counts = pre_vis_mask.sum(dim=1).tolist()
	pre_txt_counts = pre_txt_mask.sum(dim=1).tolist()
	pre_tot_counts = am.sum(dim=1).tolist()

	# post masks（删后）来自模型输出；与 post_attn 做与运算
	post_text_masks = _to_bool_lists(txt_masks_raw, current_batch_size) # list[ list[bool] \| None ]
	post_image_masks = _to_bool_lists(img_masks_raw, current_batch_size)
	post_attn_masks = _to_bool_lists(post_attn_raw, current_batch_size)

	sum_pre_text = 0; sum_post_text = 0
	sum_pre_vis = 0; sum_post_vis = 0
	sum_pre_tot = 0; sum_post_tot = 0

	for i in range(current_batch_size):
	pre_text = int(pre_txt_counts[i]) if i < len(pre_txt_counts) else 0
	pre_vis = int(pre_vis_counts[i]) if i < len(pre_vis_counts) else 0
	pre_tot = int(pre_tot_counts[i]) if i < len(pre_tot_counts) else 0

	# post 计数：mask 可能为 None
	m_text = post_text_masks[i] if post_text_masks is not None and i < len(post_text_masks) else None
	m_img = post_image_masks[i] if post_image_masks is not None and i < len(post_image_masks) else None
	m_attn = post_attn_masks[i] if post_attn_masks is not None and i < len(post_attn_masks) else None

	if m_attn is None:
	post_text = 0; post_vis = 0; post_tot = 0
	else:
	# 与 attention_mask 后统计 True 的数
	if m_text is not None:
	post_text = sum(1 for a, t in zip(m_attn, m_text) if a and t)
	else:
	post_text = 0
	if m_img is not None:
	post_vis = sum(1 for a, v in zip(m_attn, m_img) if a and v)
	else:
	post_vis = 0
	post_tot = sum(1 for a in m_attn if a)

	# 累计 batch 级
	sum_pre_text += pre_text; sum_post_text += post_text
	sum_pre_vis += pre_vis; sum_post_vis += post_vis
	sum_pre_tot += pre_tot; sum_post_tot += post_tot

	# 保存 per-sample 记录（用于 JSONL）
	local_token_records.append({
	"side": encode_side,
	"pre": {"text": pre_text, "vision": pre_vis, "total": pre_tot},
	"post": {"text": post_text, "vision": post_vis, "total": post_tot},
	"delta":{"text": pre_text - post_text, "vision": pre_vis - post_vis, "total": pre_tot - post_tot},
	})

	# --- Update total LLM input tokens after the model call ---
	if 'input_ids' in inputs and inputs['input_ids'] is not None:
	token_info["total_llm_input_tokens"] = inputs['input_ids'].shape[1]
	token_info["text_input_tokens"] = token_info["total_llm_input_tokens"] - token_info["vision_tokens"]
	token_info["text_input_tokens"] = max(0, token_info["text_input_tokens"])

	# --- Collect and Store Batch Statistics ---
	batch_inference_time = end_inference_time - start_inference_time

	current_batch_stats = {
	"batch_size": current_batch_size,
	"total_inference_time_seconds": batch_inference_time,
	"module_inference_times": {},
	"token_counts": {
	"visual_tokens": token_info["vision_tokens"],
	"language_input_tokens_raw": token_info["text_input_tokens"],
	"llm_total_input_tokens": token_info["total_llm_input_tokens"],
	"language_output_tokens": token_info["text_output_tokens"],
	}
	}
	current_batch_stats["token_reduction"] = {
	"sum_pre_text": sum_pre_text,
	"sum_post_text": sum_post_text,
	"sum_pre_vision": sum_pre_vis,
	"sum_post_vision": sum_post_vis,
	"sum_pre_total": sum_pre_tot,
	"sum_post_total": sum_post_tot,
	}

	# Calculate and store module timings for the current batch
	for module_obj in registered_hooks:
	module_id = id(module_obj)
	module_name = module_obj.__class__.__name__
	times = timing_info.get(module_id, [])
	durations = []
	pre_times = {}
	for t, event_type, _ in times:
	if event_type == 'pre':
	pre_times[module_id] = t
	elif event_type == 'post' and module_id in pre_times:
	duration = t - pre_times.pop(module_id)
	durations.append(duration)

	if durations:
	current_batch_stats["module_inference_times"][module_name] = {
	"total": sum(durations),
	"count": len(durations),
	"avg": sum(durations) / len(durations)
	}
	else:
	current_batch_stats["module_inference_times"][module_name] = {
	"total": 0.0,
	"count": 0,
	"avg": 0.0
	}

	batch_stats_list.append(current_batch_stats)

	# --- Debug prints (optional) ---
	print_rank(f"\n--- Inference Statistics for {encode_side} batch (Rank {local_rank}) ---")
	print_rank(f"Batch Inference took: {batch_inference_time:.4f} seconds")
	print_rank("--- Module Inference Timing Statistics ---")
	for module_name, stats in current_batch_stats["module_inference_times"].items():
	print_rank(f"{module_name}: Total: {stats['total']:.6f}s, Count: {stats['count']}, Avg: {stats['avg']:.6f}s")
	print_rank("--- Token Count Statistics ---")
	print_rank(f"视觉 token 数量: {current_batch_stats['token_counts']['visual_tokens']}")
	print_rank(f"语言输入 token 数量 (仅原始文本): {current_batch_stats['token_counts']['language_input_tokens_raw']}")
	print_rank(f"LLM总输入 token 数量 (包含视觉 + 格式化文本): {current_batch_stats['token_counts']['llm_total_input_tokens']}")
	print_rank(f"语言输出 token 数量: {current_batch_stats['token_counts']['language_output_tokens']}")

	if is_late_interaction and reps.dim() == 3:
	local_max_len = max(local_max_len, reps.shape[1])

	local_embeds.append(reps)

	if not local_embeds:
	# Handle cases where a rank gets no data
	return np.array([]), [], [], [] # CHANGED: 4个返回值

	# === DDP Synchronization and Padding for Late-Interaction Models ===
	if is_late_interaction:
	if dist.is_initialized():
	# 1: global max length
	local_max_len_tensor = torch.tensor(local_max_len, device=training_args.device)
	dist.all_reduce(local_max_len_tensor, op=dist.ReduceOp.MAX)
	global_max_len = local_max_len_tensor.item()
	else:
	global_max_len = local_max_len

	# 2: pad to global max length
	padded_embeds = []
	for reps_batch in local_embeds:
	if reps_batch.dim() == 3:
	B, L, H = reps_batch.shape
	padding_size = global_max_len - L
	padded_batch = F.pad(reps_batch, (0, 0, 0, padding_size), "constant", 0)
	padded_embeds.append(padded_batch)
	else:
	padded_embeds.append(reps_batch)

	embeds_tensor = torch.cat(padded_embeds, dim=0).contiguous()
	else:
	embeds_tensor = torch.cat(local_embeds, dim=0).contiguous()

	# === Gather embeddings and keys from all ranks ===
	if dist.is_initialized() and full_dataset.num_rows >= world_size:
	print_master(f"Gathering {encode_side} embeddings across all ranks...")

	# tensor gather
	output_shape = list(embeds_tensor.shape)
	output_shape[0] = full_dataset.num_rows
	embeds_tensor = embeds_tensor.to(training_args.device)
	gathered_embeds_tensor = torch.empty(output_shape, dtype=embeds_tensor.dtype, device=training_args.device)
	dist.all_gather_into_tensor(gathered_embeds_tensor, embeds_tensor)
	final_embeddings = gathered_embeds_tensor.cpu().float().numpy()

	# object gather for infos and stats
	gathered_gt_infos = [None for _ in range(world_size)]
	dist.all_gather_object(gathered_gt_infos, local_gt_infos)
	all_gt_infos = [key for rank_keys in gathered_gt_infos for key in rank_keys]

	gathered_batch_stats = [None for _ in range(world_size)]
	dist.all_gather_object(gathered_batch_stats, batch_stats_list)
	all_batch_stats = [stats for rank_stats in gathered_batch_stats for stats in rank_stats]

	# --- NEW: gather masks ---
	gathered_masks = [None for _ in range(world_size)]
	dist.all_gather_object(gathered_masks, local_img_token_masks)
	all_img_token_masks = [m for rank_list in gathered_masks for m in rank_list]
	# NEW: gather text masks
	gathered_txt_masks = [None for _ in range(world_size)]
	dist.all_gather_object(gathered_txt_masks, local_txt_token_masks)
	all_txt_token_masks = [m for rank_list in gathered_txt_masks for m in rank_list]

	# NEW: gather post attention masks（如需）
	gathered_post_attn = [None for _ in range(world_size)]
	dist.all_gather_object(gathered_post_attn, local_post_attn_masks)
	all_post_attn_masks = [m for rank_list in gathered_post_attn for m in rank_list]

	# NEW: gather token records
	gathered_token_recs = [None for _ in range(world_size)]
	dist.all_gather_object(gathered_token_recs, local_token_records)
	all_token_records = [r for rank_list in gathered_token_recs for r in rank_list]
	else:
	all_gt_infos = local_gt_infos
	final_embeddings = embeds_tensor.cpu().float().numpy()
	all_batch_stats = batch_stats_list
	all_img_token_masks = local_img_token_masks # NEW
	all_txt_token_masks = local_txt_token_masks
	all_post_attn_masks = local_post_attn_masks
	all_token_records = local_token_records

	return final_embeddings, all_gt_infos, all_batch_stats, all_img_token_masks, all_txt_token_masks, all_token_records

	# === NEW: 一次前向同时导出 cand 的中间层和最后一层向量 ===
	def encode_candidates_both_layers(
	model: MMEBModel,
	loader: DataLoader,
	training_args: TrainingArguments,
	model_args: ModelArguments,
	full_dataset: Dataset,
	mid_layer: int,
	) -> tuple[np.ndarray, np.ndarray, list]:
	"""
	单次forward到最后一层，直接从 hidden_states 取：
	- mid_hidden = hidden_states[mid_layer] # 表示经过 mid_layer 层后的状态（见Qwen2_5_VLModel的all_hidden_states定义）
	- last_hidden = hidden_states[-1] # 最后一层norm后的状态
	然后用 _pooling(attention_mask) 取句向量，返回：
	- cand_mid_embeds: np.ndarray [Nc, D]
	- cand_last_embeds: np.ndarray [Nc, D]
	- cand_ids: list[str]
	说明：
	- cand 侧默认不做 AOP 剪枝（AOP_APPLY=qry 时天然关闭），因此 mid/last 的序列长度一致，可直接用原 attention_mask 做池化。
	"""
	local_rank = dist.get_rank() if dist.is_initialized() else 0
	model.eval()

	all_mid = []
	all_last = []
	all_ids = []

	with torch.no_grad():
	for inputs, dataset_info in tqdm(loader, desc=f"Candidates[BOTH] (rank {local_rank})", disable=local_rank > 0):
	inputs = batch_to_device(inputs, training_args.device)
	# cand 侧确保不触发 AOP（如果你的 AOP_APPLY=qry/both，会在底模按侧门控；此处再做一次保险）
	aop_cfg = getattr(model.encoder, "aop_prune_config", None)
	_orig_enabled = None
	if isinstance(aop_cfg, dict) and aop_cfg:
	_orig_enabled = aop_cfg.get("enabled", False)
	apply_to = aop_cfg.get("apply_to", "qry")
	side_enable = (apply_to == "both") or (apply_to == "cand")
	aop_cfg["enabled"] = bool(side_enable and _orig_enabled)
	setattr(model.encoder, "aop_prune_config", aop_cfg)

	with torch.autocast(enabled=True, dtype=torch.bfloat16, device_type="cuda"):
	# 关键：一次forward拿全层的hidden_states
	out = model.encoder(
	**inputs,
	return_dict=True,
	output_hidden_states=True, # 必须
	stop_at_layer=None, # 走全层
	)

	# 取 hidden_states 并索引中间层/最后一层
	hs_list = out.hidden_states
	assert hs_list is not None and len(hs_list) > mid_layer, \
	f"hidden_states is None or too short. Need index {mid_layer}, got len={0 if hs_list is None else len(hs_list)}"
	mid_hs = hs_list[mid_layer] # [B, L, D]：等价“经过 mid_layer 层后的状态”（即 pre-layer(mid_layer+1)）
	last_hs = hs_list[-1] # [B, L, D]：最终norm后的状态

	# 用原 attention_mask 池化（cand侧未剪枝）
	am = inputs.get("attention_mask", None)
	if am is not None and hasattr(am, "device"):
	if am.device != mid_hs.device:
	am = am.to(mid_hs.device)

	reps_mid = model._pooling(mid_hs, am) # [B, D]
	reps_last = model._pooling(last_hs, am) # [B, D]

	all_mid.append(reps_mid.detach().float().cpu())
	all_last.append(reps_last.detach().float().cpu())
	all_ids.extend([info["cand_name"] for info in dataset_info])

	# 恢复 AOP 开关（避免影响其它侧）
	if isinstance(aop_cfg, dict) and _orig_enabled is not None:
	aop_cfg["enabled"] = _orig_enabled
	setattr(model.encoder, "aop_prune_config", aop_cfg)

	if not all_mid:
	return np.array([]), np.array([]), []

	cand_mid_embeds = torch.cat(all_mid, dim=0).numpy()
	cand_last_embeds = torch.cat(all_last, dim=0).numpy()
	return cand_mid_embeds, cand_last_embeds, all_ids

	def main():
	# ----------------------- Distributed init -----------------------
	if "RANK" in os.environ and dist.is_available() and not dist.is_initialized():
	dist.init_process_group(backend="nccl", timeout=datetime.timedelta(minutes=60))
	local_rank = dist.get_rank() if dist.is_initialized() else 0
	world_size = dist.get_world_size() if dist.is_initialized() else 1

	print_master("Distributed init debug info:")
	print_master(f"RANK: {os.environ.get('RANK')}")
	print_master(f"LOCAL_RANK: {os.environ.get('LOCAL_RANK')}")
	print_master(f"WORLD_SIZE: {os.environ.get('WORLD_SIZE')}")
	print_master(f"MASTER_ADDR: {os.environ.get('MASTER_ADDR')}")
	print_master(f"MASTER_PORT: {os.environ.get('MASTER_PORT')}")
	if dist.is_initialized():
	print_rank(f"dist.get_rank(): {dist.get_rank()}")
	print_rank(f"dist.get_world_size(): {dist.get_world_size()}")

	# 兼容 torchrun 参数
	for arg in sys.argv:
	if arg.startswith("--local-rank="):
	rank = arg.split("=")[1]
	sys.argv.remove(arg)
	sys.argv.append('--local_rank')
	sys.argv.append(rank)

	# ----------------------- Parse args -----------------------
	parser = HfArgumentParser((ModelArguments, DataArguments, TrainingArguments))
	model_args, data_args, training_args = parser.parse_args_into_dataclasses()
	model_args: ModelArguments
	data_args: DataArguments
	training_args: TrainingArguments
	os.makedirs(data_args.encode_output_path, exist_ok=True)

	# 支持多层评测（优先 LM_LAYERS，兼容 MID_LM_LAYER）
	layers_to_eval = get_env_eval_layers()
	print_master(f"Eval layers (qry/tgt): {layers_to_eval}")

	# ----------------------- Model loading -----------------------
	hf_config = AutoConfig.from_pretrained(model_args.model_name, trust_remote_code=True)
	if not getattr(model_args, "model_backbone", None):
	model_backbone = get_backbone_name(hf_config=hf_config, model_type=model_args.model_type)
	setattr(model_args, 'model_backbone', model_backbone)
	setattr(training_args, 'model_backbone', model_backbone)
	print_master(f'Model Backbone: {model_args.model_backbone}')

	# 仅 rank0 下载，其他rank等待缓存
	if local_rank == 0:
	processor = load_processor(model_args, data_args)
	model = MMEBModel.load(model_args, is_trainable=False, processor=processor)
	print_master(f"[rank=0] Loading the model from Huggingface: {model_args.model_name}...")
	if torch.distributed.is_initialized():
	torch.distributed.barrier()
	if local_rank != 0:
	print_rank(f"Loading the model from cache...")
	processor = load_processor(model_args, data_args)
	time.sleep(random.randint(2 * local_rank, 3 * local_rank))
	model = MMEBModel.load(model_args, is_trainable=False, processor=processor)

	model.eval()
	model = model.to(training_args.device, dtype=torch.bfloat16)

	# ---- NEW: AOP 剪裁配置注入（驱动底模里已实现的 AOP 逻辑）----
	aop_cfg = get_env_aop_config()
	if aop_cfg["enabled"]:
	# 把配置塞到底模；底模 forward 中读取该 dict 并执行剪裁
	setattr(model.encoder, "aop_prune_config", aop_cfg)
	# 可选：为了便于在判定层取注意力或手算 qk，覆盖注意力实现
	attn_override = aop_cfg.get("attn_impl_override", "")
	if attn_override:
	try:
	if hasattr(model.encoder, "model") and hasattr(model.encoder.model, "config"):
	prev = model.encoder.model.config._attn_implementation
	model.encoder.model.config._attn_implementation = attn_override
	print_master(f"[AOP] override attn impl: {prev} -> {attn_override} (仅测试建议)")
	except Exception as e:
	print_master(f"[AOP] try override attn impl failed: {e}")

	print_master("[AOP] AOP-Prune enabled with config: " + json.dumps({
	"apply_to": aop_cfg["apply_to"],
	"layer_idx": aop_cfg["layer_idx"],
	"mode": aop_cfg["mode"],
	"delta": aop_cfg["delta"],
	"K_hat": aop_cfg["K_hat"],
	"keep_ratio": aop_cfg["keep_ratio"],
	"min_keep": aop_cfg["min_keep"],
	"use_bias": aop_cfg["use_bias"],
	"margin_mid?": (aop_cfg["margin_mid"] is not None),
	"prune_text": aop_cfg.get("prune_text", False),
	"keep_ratio_text": aop_cfg.get("keep_ratio_text", None),
	"keep_ratio_vision": aop_cfg.get("keep_ratio_vision", None),
	"selection": aop_cfg.get("selection", "aop"),
	"attn_agg": aop_cfg.get("attn_agg", "mean"),
	}))
	else:
	print_master("[AOP] disabled (set AOP_ENABLED=1 to enable)")

	# 确保“最后一层”时不裁层（避免类里默认20层的坑）
	model.set_inference_layers(qry_layers=None, tgt_layers=None)

	with open(data_args.dataset_config, 'r') as yaml_file:
	dataset_configs = yaml.safe_load(yaml_file)

	# ----------------------- Main evaluation loop -----------------------
	for dataset_idx, (dataset_name, task_config) in enumerate(dataset_configs.items()):
	if dist.is_initialized():
	dist.barrier()
	print_master(f"\n--- Evaluating {dataset_name} ---")

	# 根据 data_basedir 修正路径
	if data_args.data_basedir is not None:
	for key in ["image_root", "video_root", "frame_root", "clip_root", "data_path"]:
	if data_args.data_basedir and task_config.get(key):
	task_config[key] = os.path.join(data_args.data_basedir, task_config[key])

	# 构建数据集
	full_eval_qry_dataset, corpus = AutoEvalPairDataset.instantiate(model_args=model_args, data_args=data_args, **task_config)
	full_eval_cand_dataset = generate_cand_dataset(full_eval_qry_dataset, corpus)
	eval_qry_dataset, eval_cand_dataset = full_eval_qry_dataset, full_eval_cand_dataset

	if dist.is_initialized():
	world_size = dist.get_world_size()
	padded_qry_dataset, _ = pad_dataset_to_divisible(full_eval_qry_dataset, world_size)
	padded_cand_dataset, _ = pad_dataset_to_divisible(full_eval_cand_dataset, world_size)
	eval_qry_dataset = split_dataset_by_node(padded_qry_dataset, rank=local_rank, world_size=world_size)
	eval_cand_dataset = split_dataset_by_node(padded_cand_dataset, rank=local_rank, world_size=world_size)
	else:
	padded_qry_dataset, padded_cand_dataset = full_eval_qry_dataset, full_eval_cand_dataset


	# === EE-only: 仅在线早停推理（先确保两份 candidate 向量）===
	ee_cfg = get_env_ee_config()
	assert ee_cfg["enabled"], "EE_ENABLED must be 1 for EE-only pipeline."

	# 依据 EE_LAYER 构造 tag
	mid_layer = int(ee_cfg["layer"])
	mid_tag = make_layer_tag(mid_layer) # e.g., layer12
	last_tag = "layerlast"

	# 准备路径
	cand_mid_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_tgt_{mid_tag}")
	cand_last_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_tgt_{last_tag}")

	# 构造 cand DataLoader（一次性，不切分）
	eval_cand_collator = MultimodalEvalDataCollator(processor, model_args, data_args, "cand")
	eval_cand_loader = DataLoader(
	full_eval_cand_dataset,
	batch_size=training_args.per_device_eval_batch_size,
	collate_fn=eval_cand_collator,
	num_workers=training_args.dataloader_num_workers
	)

	# === 替换为：一次前向，导出 cand 的 mid/last 两份向量 ===
	need_mid = (not os.path.exists(cand_mid_path))
	need_last = (not os.path.exists(cand_last_path))

	if need_mid or need_last:
	print_master(f"[{dataset_name}] EE-only: encoding candidates BOTH layers in one pass (mid={mid_tag}, last={last_tag}) ...")
	# 走全层（不截层）
	model.set_inference_layers(qry_layers=None, tgt_layers=None)

	cand_embeds_mid, cand_embeds_last, all_cand_ids = encode_candidates_both_layers(
	model=model,
	loader=eval_cand_loader,
	training_args=training_args,
	model_args=model_args,
	full_dataset=full_eval_cand_dataset,
	mid_layer=mid_layer,
	)
	if local_rank == 0:
	if need_mid:
	cand_embed_dict_mid = {cid: emb for cid, emb in zip(all_cand_ids, cand_embeds_mid)}
	with open(cand_mid_path, "wb") as f:
	pickle.dump(cand_embed_dict_mid, f)
	print_master(f"[{dataset_name}] EE-only: saved {mid_tag} candidate embeddings -> {cand_mid_path}")
	if need_last:
	cand_embed_dict_last = {cid: emb for cid, emb in zip(all_cand_ids, cand_embeds_last)}
	with open(cand_last_path, "wb") as f:
	pickle.dump(cand_embed_dict_last, f)
	print_master(f"[{dataset_name}] EE-only: saved {last_tag} candidate embeddings -> {cand_last_path}")
	else:
	print_master(f"[{dataset_name}] EE-only: reuse existing candidates (mid={cand_mid_path}, last={cand_last_path})")

	if dist.is_initialized():
	dist.barrier()

	# 3) 在线早停门控 + 子集续跑（不做离线分层评分/曲线）
	if local_rank == 0:
	with open(cand_mid_path, "rb") as f:
	cand_mid_dict = pickle.load(f)
	with open(cand_last_path, "rb") as f:
	cand_last_dict = pickle.load(f)

	rank_global = task_config.get("eval_type", "global") == "global"
	print_master(f"[{dataset_name}] Run ONLINE early-exit at layer={ee_cfg['layer']}, method={ee_cfg['method']}, tau={ee_cfg['tau']}, topk={ee_cfg['topk']}, global={rank_global}")
	run_early_exit_queries(
	model=model,
	processor=processor,
	model_args=model_args,
	data_args=data_args,
	training_args=training_args,
	qry_dataset=full_eval_qry_dataset, # 全量 query
	cand_mid_dict=cand_mid_dict,
	cand_last_dict=cand_last_dict,
	ee_cfg=ee_cfg,
	dataset_name=dataset_name,
	out_dir=data_args.encode_output_path,
	global_ranking=rank_global,
	)

	if dist.is_initialized():
	dist.barrier()
	# === EE-only 结束；直接进入下一个数据集 ===
	continue


	if __name__ == '__main__':
	main()