code_SAS_VLM2Vec / eval_test_time_multilayer_AOP.py

Add files using upload-large-folder tool

ac8b25b verified 2 months ago

68.7 kB

	import datetime
	import logging
	import json
	import random
	import time
	import numpy as np
	import os
	import pickle
	import sys
	import torch
	import torch.distributed as dist
	import torch.nn.functional as F
	import yaml
	import transformers
	import json
	import datetime

	from torch.utils.data import DataLoader
	from tqdm import tqdm
	from transformers import HfArgumentParser, AutoConfig, AutoTokenizer
	from datasets import Dataset, concatenate_datasets
	from datasets.distributed import split_dataset_by_node

	from src.arguments import ModelArguments, DataArguments, TrainingArguments
	from src.data.collator.eval_collator import MultimodalEvalDataCollator
	from src.data.eval_dataset.base_eval_dataset import AutoEvalPairDataset, generate_cand_dataset
	from src.eval_utils.metrics import RankingMetrics
	from src.model.model_multilayer_AOP_infer import MMEBModel
	from src.model.processor import get_backbone_name, load_processor, COLPALI
	from src.utils import batch_to_device, print_rank, print_master

	from dataclasses import dataclass

	def get_env_mid_layer():
	v = os.environ.get("MID_LM_LAYER", "").strip()
	if v == "" or v.lower() in {"none", "null"}:
	return None
	try:
	return int(v)
	except:
	logger.warning(f"Invalid MID_LM_LAYER={v}, ignore.")
	return None

	# ------------- AOP-Prune config parsing -------------
	def _parse_bool(v: str, default=False):
	if v is None: return default
	v = v.strip().lower()
	return v in {"1","true","yes","y","t","on"}

	def _parse_float(v: str, default=None):
	try: return float(v) if v is not None else default
	except: return default

	def _parse_int(v: str, default=None):
	try: return int(v) if v is not None else default
	except: return default

	def get_env_aop_config():
	"""
	从环境变量读取 AOP 剪裁配置。仅作为“驱动层”的简要测试开关；
	实际剪裁逻辑在底模里（Qwen2-VLModel.forward）实现。
	"""
	enabled = _parse_bool(os.environ.get("AOP_ENABLED"), False)
	apply_to = os.environ.get("AOP_APPLY", "qry").strip().lower() # qry\|cand\|both
	layer_idx = _parse_int(os.environ.get("AOP_LAYER"), None)
	mode = os.environ.get("AOP_MODE", "delta").strip().lower()

	# 通用回退
	delta = _parse_float(os.environ.get("AOP_DELTA"), 0.10)
	khat = _parse_float(os.environ.get("AOP_KHAT"), 1.0)
	keep_ratio = _parse_float(os.environ.get("AOP_KEEP_RATIO"), 1.0)
	min_keep = _parse_int(os.environ.get("AOP_MIN_KEEP"), 64)
	use_bias = _parse_bool(os.environ.get("AOP_USE_BIAS"), True)

	# 按类型控制
	prune_vision = _parse_bool(os.environ.get("AOP_PRUNE_VISION"), True)
	prune_text = _parse_bool(os.environ.get("AOP_PRUNE_TEXT"), False)

	delta_v = _parse_float(os.environ.get("AOP_DELTA_VISION"), None)
	khat_v = _parse_float(os.environ.get("AOP_KHAT_VISION"), None)
	keep_ratio_v= _parse_float(os.environ.get("AOP_KEEP_RATIO_VISION"), None)
	min_keep_v = _parse_int(os.environ.get("AOP_MIN_KEEP_VISION"), None)

	delta_t = _parse_float(os.environ.get("AOP_DELTA_TEXT"), None)
	khat_t = _parse_float(os.environ.get("AOP_KHAT_TEXT"), None)
	keep_ratio_t= _parse_float(os.environ.get("AOP_KEEP_RATIO_TEXT"), None)
	min_keep_t = _parse_int(os.environ.get("AOP_MIN_KEEP_TEXT"), 32)

	protect_text_last = _parse_int(os.environ.get("AOP_PROTECT_TEXT_LAST"), 16)
	protect_special = _parse_bool(os.environ.get("AOP_PROTECT_SPECIAL"), True)

	margin_src = os.environ.get("AOP_MARGIN", "").strip().lower() # "" or "mid"
	attn_impl = os.environ.get("AOP_ATTN_IMPL", "").strip().lower() # "" or "sdpa"

	if layer_idx is None and enabled:
	logger.warning("AOP_ENABLED=1 但未设置 AOP_LAYER，关闭 AOP。"); enabled=False

	# 新增：选择策略（aop \| random）
	selection = os.environ.get("AOP_SELECTION", "aop").strip().lower()
	if _parse_bool(os.environ.get("AOP_RANDOM"), False):
	selection = "random"
	random_seed = _parse_int(os.environ.get("AOP_RANDOM_SEED"), None)

	# 选择策略：aop \| random \| attention
	selection = os.environ.get("AOP_SELECTION", "aop").strip().lower()
	if _parse_bool(os.environ.get("AOP_RANDOM"), False):
	selection = "random"
	random_seed = _parse_int(os.environ.get("AOP_RANDOM_SEED"), None)
	attn_agg = os.environ.get("AOP_ATTENTION_AGG", "mean").strip().lower() # mean\|max\|sum

	cfg = {
	"enabled": enabled,
	"apply_to": apply_to,
	"layer_idx": layer_idx,
	"mode": mode,

	# 回退
	"delta": delta, "K_hat": khat,
	"keep_ratio": keep_ratio, "min_keep": min_keep,
	"use_bias": use_bias, "eps": 1e-6,

	# 类型开关
	"prune_vision": prune_vision,
	"prune_text": prune_text,

	# 视觉桶
	"delta_vision": delta_v,
	"K_hat_vision": khat_v,
	"keep_ratio_vision": keep_ratio_v,
	"min_keep_vision": min_keep_v,

	# 文本桶
	"delta_text": delta_t,
	"K_hat_text": khat_t,
	"keep_ratio_text": keep_ratio_t,
	"min_keep_text": min_keep_t,

	# 文本保护
	"protect_text_last": protect_text_last,
	"protect_special": protect_special,

	# 可选：排名安全预算
	"margin_mid": None if margin_src != "mid" else "USE_MID_MARGIN",
	"epsilon_hat": None,
	"attn_impl_override": attn_impl if attn_impl in {"sdpa"} else "",

	# NEW: 选择策略
	"selection": selection, # "aop" 或 "random"
	"random_seed": random_seed, # 可选
	"attn_agg": attn_agg,
	}
	return cfg

	def _b(k, d=False):
	v = os.environ.get(k)
	if v is None: return d
	return str(v).strip().lower() in {"1","true","yes","y","on","t"}

	def _i(k, d=None):
	try: return int(os.environ.get(k, d))
	except: return d

	def _s(k, d=None):
	v = os.environ.get(k, d)
	return None if v is None else str(v).strip().lower()

	def get_env_vpool_config():
	return {
	"enabled": _b("VPOOL_ENABLED", False),
	"apply_to": _s("VPOOL_APPLY", "both"), # qry\|cand\|both
	"layer_idx": _i("VPOOL_LAYER", 1),
	"kernel": _i("VPOOL_KERNEL", 2),
	"stride": _i("VPOOL_STRIDE", None) or _i("VPOOL_KERNEL", 2),
	"method": _s("VPOOL_METHOD", "avg"), # avg\|max\|linear\|conv
	"protect_cls": _b("VPOOL_PROTECT_CLS", True),
	"vision_only": _b("VPOOL_ONLY_VISION", True),
	"monitor": _b("VPOOL_MONITOR", False),
	}

	def get_env_eval_layers():
	"""
	解析环境变量 LM_LAYERS（优先）或兼容旧的 MID_LM_LAYER。
	- LM_LAYERS 示例："4,8,12,last"；可包含 'last'/'none'/'null'/'-1' 表示最后一层(None)。
	- 若未设置 LM_LAYERS，则回落到旧逻辑：MID_LM_LAYER=None -> [None]；否则 [mid, None]
	返回: list[ int \| None ]，例如 [4, 8, 12, None]；None 代表最后一层。
	"""
	v = os.environ.get("LM_LAYERS", None)
	if v is not None:
	v = v.strip()

	if v:
	toks = [t.strip() for t in v.split(',') if t.strip() != ""]
	layers = []
	for tok in toks:
	tl = tok.lower()
	if tl in {"last", "none", "null", "-1"}:
	layers.append(None)
	else:
	try:
	val = int(tok)
	if val > 0:
	layers.append(val)
	else:
	logger.warning(f"Ignoring non-positive layer '{tok}' in LM_LAYERS.")
	except Exception:
	logger.warning(f"Invalid token '{tok}' in LM_LAYERS; must be int or 'last'/'none'.")
	# 去重但保持顺序
	seen = set()
	uniq = []
	for l in layers:
	key = -1 if l is None else l
	if key in seen:
	continue
	seen.add(key)
	uniq.append(l)
	if not uniq:
	return [None]
	return uniq
	else:
	# 兼容旧逻辑
	mid = get_env_mid_layer()
	return [None] if mid is None else [mid, None]

	def make_layer_tag(keep_layers: int \| None):
	return f"layer{keep_layers}" if keep_layers and keep_layers > 0 else "layerlast"

	def dot_sim(a: np.ndarray, b: np.ndarray) -> np.ndarray:
	# a: [Nq, D], b: [Nc, D], both L2-normalized already if normalize=true
	return a @ b.T

	def build_score_details(qid: int, cand_ids: list, score_vec: np.ndarray, ranked_indices: np.ndarray):
	return {
	"qid": int(qid),
	"cand_scores": [
	{"cand_id": str(cand_ids[i]), "score": float(score_vec[i])}
	for i in ranked_indices
	]
	}

	def top1_top2_margin(score_vec: np.ndarray) -> float:
	if len(score_vec) < 2:
	return float("inf") # 只有一个候选时视作极大margin
	top2 = np.partition(score_vec, -2)[-2:]
	top2.sort()
	return float(top2[-1] - top2[-2])

	def simulate_early_exit_by_margin(
	sims_mid: list[dict], sims_last: list[dict], labels: list[list[str]], metrics_to_report: list[str],
	taus: list[float], rank_global: bool
	):
	"""
	sims_mid / sims_last: 每个query一个dict: {cand_id: score}
	labels: 每个query的正样本cand_id列表
	返回：不同tau下的覆盖率、指标
	"""
	assert len(sims_mid) == len(sims_last) == len(labels)
	N = len(labels)
	results = []

	from src.eval_utils.metrics import RankingMetrics
	metrics = RankingMetrics(metrics_to_report)

	# 预构造用于metrics.evaluate 的pred_dict
	def to_pred_dicts(use_mid_mask: list[bool]) -> list[dict]:
	pred_dicts = []
	for qid in range(N):
	sims_use = sims_mid[qid] if use_mid_mask[qid] else sims_last[qid]
	# 排序
	ranked = sorted(sims_use.items(), key=lambda x: -x[1])
	pred_dicts.append({
	"prediction": [cid for cid, _ in ranked],
	"label": labels[qid],
	"rel_scores": None
	})
	return pred_dicts

	# 计算中间层margin
	margins = []
	for qid in range(N):
	# 取前两大分数的margin
	if len(sims_mid[qid]) == 0:
	margins.append(0.0)
	continue
	scores = np.array(list(sims_mid[qid].values()), dtype=np.float32)
	margins.append(top1_top2_margin(scores))

	margins = np.array(margins, dtype=np.float32)

	for tau in taus:
	use_mid_mask = (margins >= tau).tolist()
	pred_dicts = to_pred_dicts(use_mid_mask)
	score_dict = metrics.evaluate(pred_dicts)
	coverage = float(np.mean(use_mid_mask)) # 早停覆盖率
	results.append({
	"tau": tau,
	"coverage": coverage,
	**score_dict
	})
	return results

	def top1_top2_margin_from_array(score_vec: np.ndarray) -> float:
	if score_vec is None or len(score_vec) == 0:
	return 0.0
	if len(score_vec) == 1:
	return float('inf')
	# 取前两大
	top2 = np.partition(score_vec, -2)[-2:]
	top2.sort()
	return float(top2[-1] - top2[-2])

	logging.basicConfig(level=logging.INFO, format='[%(asctime)s] %(levelname)s [%(name)s:%(lineno)s] %(message)s')
	logger = logging.getLogger(__name__)

	# --- Global Dictionaries for Hooks (will be cleared before each encode_embeddings call) ---
	timing_info = {}
	token_info = {
	"vision_tokens": 0,
	"text_input_tokens": 0, # Refers to the original text token count
	"text_output_tokens": 0, # Not directly applicable here as we are encoding, not generating. Will be 0.
	"total_llm_input_tokens": 0, # Refers to the total tokens LLM receives (visual + formatted text)
	}

	# --- Hook Functions Definition ---
	def timing_pre_hook(module, input):
	module_id = id(module)
	if module_id not in timing_info:
	timing_info[module_id] = []
	timing_info[module_id].append((time.time(), 'pre', module.__class__.__name__))

	def timing_post_hook(module, input, output):
	module_id = id(module)
	if module_id not in timing_info:
	# print(f"Warning: No pre-hook data for module {module.__class__.__name__} ({module_id})")
	return

	timing_info[module_id].append((time.time(), 'post', module.__class__.__name__))

	# Collect vision token count (only from Vision Transformer module's post hook)
	module_name = module.__class__.__name__
	if "vision" in module_name.lower() and "transformer" in module_name.lower():
	if isinstance(output, torch.Tensor):
	token_info["vision_tokens"] = output.shape[0] # For visual features, usually (batch_size, num_tokens, hidden_dim)
	elif hasattr(output, 'last_hidden_state'):
	token_info["vision_tokens"] = output.last_hidden_state.shape[1]


	def register_model_hooks(model):
	registered_modules = []

	core_model = model
	# print_master(f"DEBUG: Initial model type in register_model_hooks: {type(model)}")

	# Vision module
	if hasattr(core_model, 'visual') and core_model.visual is not None:
	vision_module = core_model.visual
	vision_module.register_forward_pre_hook(timing_pre_hook)
	vision_module.register_forward_hook(timing_post_hook)
	registered_modules.append(vision_module)
	print_master(f"Registered hooks for vision module: {vision_module.__class__.__name__}")
	else:
	print_master(f"WARNING: No 'visual' attribute found on core_model ({type(core_model)}).")


	# Merger module (if inside visual) - it's part of the vision component
	if hasattr(core_model, 'visual') and hasattr(core_model.visual, 'merger') and core_model.visual.merger is not None:
	merger_module = core_model.visual.merger
	merger_module.register_forward_pre_hook(timing_pre_hook)
	merger_module.register_forward_hook(timing_post_hook)
	registered_modules.append(merger_module)
	print_master(f"Registered hooks for merger module: {merger_module.__class__.__name__}")
	else:
	print_master(f"WARNING: No 'merger' attribute found on core_model.visual ({type(getattr(core_model, 'visual', 'N/A'))}).")

	# Language model body
	if hasattr(core_model, 'model') and core_model.model is not None:
	llm_main_module = core_model.model
	llm_main_module.register_forward_pre_hook(timing_pre_hook)
	llm_main_module.register_forward_hook(timing_post_hook)
	registered_modules.append(llm_main_module)
	print_master(f"Registered hooks for LLM main module: {llm_main_module.__class__.__name__}")
	else:
	print_master(f"WARNING: No 'model' attribute found on core_model ({type(core_model)}).")


	# LM Head
	if hasattr(core_model, 'lm_head') and core_model.lm_head is not None:
	lm_head_module = core_model.lm_head
	lm_head_module.register_forward_pre_hook(timing_pre_hook)
	lm_head_module.register_forward_hook(timing_post_hook)
	registered_modules.append(lm_head_module)
	print_master(f"Registered hooks for LM head module: {lm_head_module.__class__.__name__}")
	else:
	print_master(f"WARNING: No 'lm_head' attribute found on core_model ({type(core_model)}).")


	if not registered_modules:
	print_master("Warning: No major modules found for hook registration. Check model architecture.")
	return registered_modules


	def pad_dataset_to_divisible(dataset, world_size):
	num_samples = len(dataset)
	if num_samples % world_size == 0:
	return dataset, num_samples

	num_to_add = world_size - (num_samples % world_size)
	padded_size = num_samples + num_to_add

	padding_data = dataset.select([i % len(dataset) for i in range(num_to_add)])
	padded_dataset = concatenate_datasets([dataset, padding_data])
	return padded_dataset, padded_size

	def encode_embeddings(
	model: MMEBModel,
	loader: DataLoader,
	training_args: TrainingArguments,
	model_args: ModelArguments,
	full_dataset: Dataset,
	encode_side: str,
	description: str = "Encoding"
	) -> tuple[np.ndarray, list, list, list]: # CHANGED: + list for img_token_masks
	"""
	Encodes embeddings for a given dataset using the model, handling both standard and
	late-interaction models in a DDP-safe manner.
	Returns:
	- embeddings: np.ndarray
	- infos_or_ids: list
	- batch_stats_list: list
	- img_token_masks: list[None \| list[bool]] # NEW
	"""
	local_rank = dist.get_rank() if dist.is_initialized() else 0
	world_size = dist.get_world_size() if dist.is_initialized() else 1

	# Check if the model is a late-interaction type
	is_late_interaction = (model_args.model_backbone == COLPALI)

	local_embeds = []
	local_gt_infos = []
	local_max_len = 0

	# --- New: List to store statistics for each batch ---
	batch_stats_list = []

	# --- NEW: Collect masks ---
	local_img_token_masks = [] # post image mask per sample
	local_txt_token_masks = [] # NEW: post text mask per sample
	local_post_attn_masks = [] # NEW: post attention_mask per sample (after prune, 1/0)

	# --- NEW: per-sample token reduction records ---
	local_token_records = [] # 每条样本一个 dict，含 pre/post/delta 数量

	model.eval()

	# Register hooks for the model once per encode_embeddings call
	registered_hooks = register_model_hooks(model)

	# --- NEW: helpers to取mask并序列化 ---
	def _search_key(obj, key: str):
	# 递归搜索 dict/list/tuple，找到指定 key
	if isinstance(obj, dict):
	if key in obj:
	return obj[key]
	for v in obj.values():
	r = _search_key(v, key)
	if r is not None:
	return r
	elif isinstance(obj, (list, tuple)):
	for v in obj:
	r = _search_key(v, key)
	if r is not None:
	return r
	return None

	def _to_serializable_mask_list(mask_list, batch_size: int):
	# 将模型返回的 mask（list/tensor/ndarray/None）转成 [None \| list[bool]] * B
	if mask_list is None:
	return [None] * batch_size

	out = []
	if isinstance(mask_list, (list, tuple)):
	for m in mask_list:
	if m is None:
	out.append(None)
	elif torch.is_tensor(m):
	out.append(m.detach().cpu().tolist())
	elif isinstance(m, np.ndarray):
	out.append(m.tolist())
	else:
	# already python list/bool
	out.append(m)
	elif torch.is_tensor(mask_list):
	# 若是 2D 张量（B, L），直接 tolist() -> list[list[bool/int]]
	out = mask_list.detach().cpu().tolist()
	elif isinstance(mask_list, np.ndarray):
	out = mask_list.tolist()
	else:
	# 未知类型，保守返回 None 占位
	out = [None] * batch_size

	# 长度对齐 batch_size
	if isinstance(out, list):
	if len(out) < batch_size:
	out = out + [None] * (batch_size - len(out))
	elif len(out) > batch_size:
	out = out[:batch_size]
	return out

	def _to_bool_lists(m, batch_size: int):
	lst = _to_serializable_mask_list(m, batch_size)
	# 归一化成 list[ list[bool] \| None ]
	out = []
	for x in lst:
	if x is None:
	out.append(None)
	else:
	# x 可能是 list[int] 或 list[bool]
	out.append([bool(int(v)) for v in x])
	return out

	with torch.no_grad():
	for inputs, dataset_info in tqdm(loader, desc=f"{description} (rank {local_rank})", disable=local_rank > 0):
	# --- Reset statistics for each inference pass ---
	timing_info.clear()
	token_info["vision_tokens"] = 0
	token_info["text_input_tokens"] = 0
	token_info["text_output_tokens"] = 0
	token_info["total_llm_input_tokens"] = 0

	inputs = batch_to_device(inputs, training_args.device)
	current_batch_size = inputs['input_ids'].shape[0] if 'input_ids' in inputs and inputs['input_ids'] is not None else 1

	with torch.autocast(enabled=True, dtype=torch.bfloat16, device_type="cuda"):
	start_inference_time = time.time()
	# ---- NEW: 按侧开/关 AOP ----
	aop_cfg = getattr(model.encoder, "aop_prune_config", None)
	_orig_enabled = None
	if isinstance(aop_cfg, dict) and aop_cfg:
	_orig_enabled = aop_cfg.get("enabled", False)
	apply_to = aop_cfg.get("apply_to", "qry")
	side_enable = (apply_to == "both") or (apply_to == encode_side)
	aop_cfg["enabled"] = bool(side_enable and _orig_enabled)
	setattr(model.encoder, "aop_prune_config", aop_cfg)
	if encode_side == "qry":
	output = model(qry=inputs)
	reps = output["qry_reps"].detach()
	local_gt_infos.extend(dataset_info)
	else:
	output = model(tgt=inputs)
	reps = output["tgt_reps"].detach()
	local_gt_infos.extend([info["cand_name"] for info in dataset_info])
	# ---- NEW: 恢复 enabled（避免影响下个 encode_side）----
	if isinstance(aop_cfg, dict) and _orig_enabled is not None:
	aop_cfg["enabled"] = _orig_enabled
	setattr(model.encoder, "aop_prune_config", aop_cfg)
	end_inference_time = time.time()

	# --- NEW: 提取 post-prune 的 image/text 掩码与 post attention_mask ---
	img_masks_raw = None
	txt_masks_raw = None
	post_attn_raw = None

	if isinstance(output, dict):
	img_masks_raw = _search_key(output, "image_token_bool_masks")
	txt_masks_raw = _search_key(output, "text_token_bool_masks") # NEW
	post_attn_raw = _search_key(output, "post_attention_mask")
	if post_attn_raw is None:
	# 兼容 mldaop 变体：有些只返回 attention_mask
	post_attn_raw = _search_key(output, "attention_mask")

	# 兼容：若挂在 model 上
	if img_masks_raw is None and hasattr(model, "image_token_bool_masks"):
	img_masks_raw = getattr(model, "image_token_bool_masks")
	if txt_masks_raw is None and hasattr(model, "text_token_bool_masks"):
	txt_masks_raw = getattr(model, "text_token_bool_masks")
	if post_attn_raw is None and hasattr(model, "post_attention_mask"):
	post_attn_raw = getattr(model, "post_attention_mask")

	img_masks_serializable = _to_serializable_mask_list(img_masks_raw, current_batch_size)
	txt_masks_serializable = _to_serializable_mask_list(txt_masks_raw, current_batch_size) # NEW
	post_attn_serializable = _to_serializable_mask_list(post_attn_raw, current_batch_size) # NEW

	local_img_token_masks.extend(img_masks_serializable)
	local_txt_token_masks.extend(txt_masks_serializable) # NEW
	local_post_attn_masks.extend(post_attn_serializable) # NEW

	# --- NEW: 计算本 batch 的 pre/post/delta 数量并累计 ---
	cfg = getattr(model.encoder, "config", None)
	# pre masks 来自 inputs（删前）
	input_ids = inputs.get("input_ids", None)
	attn2d_pre = inputs.get("attention_mask", None)
	if input_ids is None or attn2d_pre is None or cfg is None:
	# 无法统计，留空
	pre_vis_counts = [0] * current_batch_size
	pre_txt_counts = [0] * current_batch_size
	pre_tot_counts = [0] * current_batch_size
	else:
	iid = input_ids
	am = attn2d_pre.to(torch.bool)
	image_token_id = getattr(cfg, "image_token_id", None)
	video_token_id = getattr(cfg, "video_token_id", None)
	bos_id = getattr(cfg, "bos_token_id", None)
	eos_id = getattr(cfg, "eos_token_id", None)
	pad_id = getattr(cfg, "pad_token_id", None)

	is_image = (iid == image_token_id) if (image_token_id is not None and image_token_id >= 0) else torch.zeros_like(iid, dtype=torch.bool)
	is_video = (iid == video_token_id) if (video_token_id is not None and video_token_id >= 0) else torch.zeros_like(iid, dtype=torch.bool)
	is_vision = is_image \| is_video

	is_special = torch.zeros_like(iid, dtype=torch.bool)
	for tid in [bos_id, eos_id, pad_id]:
	if tid is not None and tid >= 0:
	is_special \|= (iid == tid)

	pre_txt_mask = am & (~is_vision) & (~is_special)
	pre_vis_mask = am & is_vision

	pre_vis_counts = pre_vis_mask.sum(dim=1).tolist()
	pre_txt_counts = pre_txt_mask.sum(dim=1).tolist()
	pre_tot_counts = am.sum(dim=1).tolist()

	# post masks（删后）来自模型输出；与 post_attn 做与运算
	post_text_masks = _to_bool_lists(txt_masks_raw, current_batch_size) # list[ list[bool] \| None ]
	post_image_masks = _to_bool_lists(img_masks_raw, current_batch_size)
	post_attn_masks = _to_bool_lists(post_attn_raw, current_batch_size)

	sum_pre_text = 0; sum_post_text = 0
	sum_pre_vis = 0; sum_post_vis = 0
	sum_pre_tot = 0; sum_post_tot = 0

	for i in range(current_batch_size):
	pre_text = int(pre_txt_counts[i]) if i < len(pre_txt_counts) else 0
	pre_vis = int(pre_vis_counts[i]) if i < len(pre_vis_counts) else 0
	pre_tot = int(pre_tot_counts[i]) if i < len(pre_tot_counts) else 0

	# post 计数：mask 可能为 None
	m_text = post_text_masks[i] if post_text_masks is not None and i < len(post_text_masks) else None
	m_img = post_image_masks[i] if post_image_masks is not None and i < len(post_image_masks) else None
	m_attn = post_attn_masks[i] if post_attn_masks is not None and i < len(post_attn_masks) else None

	if m_attn is None:
	post_text = 0; post_vis = 0; post_tot = 0
	else:
	# 与 attention_mask 后统计 True 的数
	if m_text is not None:
	post_text = sum(1 for a, t in zip(m_attn, m_text) if a and t)
	else:
	post_text = 0
	if m_img is not None:
	post_vis = sum(1 for a, v in zip(m_attn, m_img) if a and v)
	else:
	post_vis = 0
	post_tot = sum(1 for a in m_attn if a)

	# 累计 batch 级
	sum_pre_text += pre_text; sum_post_text += post_text
	sum_pre_vis += pre_vis; sum_post_vis += post_vis
	sum_pre_tot += pre_tot; sum_post_tot += post_tot

	# 保存 per-sample 记录（用于 JSONL）
	local_token_records.append({
	"side": encode_side,
	"pre": {"text": pre_text, "vision": pre_vis, "total": pre_tot},
	"post": {"text": post_text, "vision": post_vis, "total": post_tot},
	"delta":{"text": pre_text - post_text, "vision": pre_vis - post_vis, "total": pre_tot - post_tot},
	})

	# --- Update total LLM input tokens after the model call ---
	if 'input_ids' in inputs and inputs['input_ids'] is not None:
	token_info["total_llm_input_tokens"] = inputs['input_ids'].shape[1]
	token_info["text_input_tokens"] = token_info["total_llm_input_tokens"] - token_info["vision_tokens"]
	token_info["text_input_tokens"] = max(0, token_info["text_input_tokens"])

	# --- Collect and Store Batch Statistics ---
	batch_inference_time = end_inference_time - start_inference_time

	current_batch_stats = {
	"batch_size": current_batch_size,
	"total_inference_time_seconds": batch_inference_time,
	"module_inference_times": {},
	"token_counts": {
	"visual_tokens": token_info["vision_tokens"],
	"language_input_tokens_raw": token_info["text_input_tokens"],
	"llm_total_input_tokens": token_info["total_llm_input_tokens"],
	"language_output_tokens": token_info["text_output_tokens"],
	}
	}
	current_batch_stats["token_reduction"] = {
	"sum_pre_text": sum_pre_text,
	"sum_post_text": sum_post_text,
	"sum_pre_vision": sum_pre_vis,
	"sum_post_vision": sum_post_vis,
	"sum_pre_total": sum_pre_tot,
	"sum_post_total": sum_post_tot,
	}

	# Calculate and store module timings for the current batch
	for module_obj in registered_hooks:
	module_id = id(module_obj)
	module_name = module_obj.__class__.__name__
	times = timing_info.get(module_id, [])
	durations = []
	pre_times = {}
	for t, event_type, _ in times:
	if event_type == 'pre':
	pre_times[module_id] = t
	elif event_type == 'post' and module_id in pre_times:
	duration = t - pre_times.pop(module_id)
	durations.append(duration)

	if durations:
	current_batch_stats["module_inference_times"][module_name] = {
	"total": sum(durations),
	"count": len(durations),
	"avg": sum(durations) / len(durations)
	}
	else:
	current_batch_stats["module_inference_times"][module_name] = {
	"total": 0.0,
	"count": 0,
	"avg": 0.0
	}

	batch_stats_list.append(current_batch_stats)

	# --- Debug prints (optional) ---
	print_rank(f"\n--- Inference Statistics for {encode_side} batch (Rank {local_rank}) ---")
	print_rank(f"Batch Inference took: {batch_inference_time:.4f} seconds")
	print_rank("--- Module Inference Timing Statistics ---")
	for module_name, stats in current_batch_stats["module_inference_times"].items():
	print_rank(f"{module_name}: Total: {stats['total']:.6f}s, Count: {stats['count']}, Avg: {stats['avg']:.6f}s")
	print_rank("--- Token Count Statistics ---")
	print_rank(f"视觉 token 数量: {current_batch_stats['token_counts']['visual_tokens']}")
	print_rank(f"语言输入 token 数量 (仅原始文本): {current_batch_stats['token_counts']['language_input_tokens_raw']}")
	print_rank(f"LLM总输入 token 数量 (包含视觉 + 格式化文本): {current_batch_stats['token_counts']['llm_total_input_tokens']}")
	print_rank(f"语言输出 token 数量: {current_batch_stats['token_counts']['language_output_tokens']}")

	if is_late_interaction and reps.dim() == 3:
	local_max_len = max(local_max_len, reps.shape[1])

	local_embeds.append(reps)

	if not local_embeds:
	# Handle cases where a rank gets no data
	return np.array([]), [], [], [] # CHANGED: 4个返回值

	# === DDP Synchronization and Padding for Late-Interaction Models ===
	if is_late_interaction:
	if dist.is_initialized():
	# 1: global max length
	local_max_len_tensor = torch.tensor(local_max_len, device=training_args.device)
	dist.all_reduce(local_max_len_tensor, op=dist.ReduceOp.MAX)
	global_max_len = local_max_len_tensor.item()
	else:
	global_max_len = local_max_len

	# 2: pad to global max length
	padded_embeds = []
	for reps_batch in local_embeds:
	if reps_batch.dim() == 3:
	B, L, H = reps_batch.shape
	padding_size = global_max_len - L
	padded_batch = F.pad(reps_batch, (0, 0, 0, padding_size), "constant", 0)
	padded_embeds.append(padded_batch)
	else:
	padded_embeds.append(reps_batch)

	embeds_tensor = torch.cat(padded_embeds, dim=0).contiguous()
	else:
	embeds_tensor = torch.cat(local_embeds, dim=0).contiguous()

	# === Gather embeddings and keys from all ranks ===
	if dist.is_initialized() and full_dataset.num_rows >= world_size:
	print_master(f"Gathering {encode_side} embeddings across all ranks...")

	# tensor gather
	output_shape = list(embeds_tensor.shape)
	output_shape[0] = full_dataset.num_rows
	embeds_tensor = embeds_tensor.to(training_args.device)
	gathered_embeds_tensor = torch.empty(output_shape, dtype=embeds_tensor.dtype, device=training_args.device)
	dist.all_gather_into_tensor(gathered_embeds_tensor, embeds_tensor)
	final_embeddings = gathered_embeds_tensor.cpu().float().numpy()

	# object gather for infos and stats
	gathered_gt_infos = [None for _ in range(world_size)]
	dist.all_gather_object(gathered_gt_infos, local_gt_infos)
	all_gt_infos = [key for rank_keys in gathered_gt_infos for key in rank_keys]

	gathered_batch_stats = [None for _ in range(world_size)]
	dist.all_gather_object(gathered_batch_stats, batch_stats_list)
	all_batch_stats = [stats for rank_stats in gathered_batch_stats for stats in rank_stats]

	# --- NEW: gather masks ---
	gathered_masks = [None for _ in range(world_size)]
	dist.all_gather_object(gathered_masks, local_img_token_masks)
	all_img_token_masks = [m for rank_list in gathered_masks for m in rank_list]
	# NEW: gather text masks
	gathered_txt_masks = [None for _ in range(world_size)]
	dist.all_gather_object(gathered_txt_masks, local_txt_token_masks)
	all_txt_token_masks = [m for rank_list in gathered_txt_masks for m in rank_list]

	# NEW: gather post attention masks（如需）
	gathered_post_attn = [None for _ in range(world_size)]
	dist.all_gather_object(gathered_post_attn, local_post_attn_masks)
	all_post_attn_masks = [m for rank_list in gathered_post_attn for m in rank_list]

	# NEW: gather token records
	gathered_token_recs = [None for _ in range(world_size)]
	dist.all_gather_object(gathered_token_recs, local_token_records)
	all_token_records = [r for rank_list in gathered_token_recs for r in rank_list]
	else:
	all_gt_infos = local_gt_infos
	final_embeddings = embeds_tensor.cpu().float().numpy()
	all_batch_stats = batch_stats_list
	all_img_token_masks = local_img_token_masks # NEW
	all_txt_token_masks = local_txt_token_masks
	all_post_attn_masks = local_post_attn_masks
	all_token_records = local_token_records

	return final_embeddings, all_gt_infos, all_batch_stats, all_img_token_masks, all_txt_token_masks, all_token_records


	def main():
	# ----------------------- Distributed init -----------------------
	if "RANK" in os.environ and dist.is_available() and not dist.is_initialized():
	dist.init_process_group(backend="nccl", timeout=datetime.timedelta(minutes=60))
	local_rank = dist.get_rank() if dist.is_initialized() else 0
	world_size = dist.get_world_size() if dist.is_initialized() else 1

	print_master("Distributed init debug info:")
	print_master(f"RANK: {os.environ.get('RANK')}")
	print_master(f"LOCAL_RANK: {os.environ.get('LOCAL_RANK')}")
	print_master(f"WORLD_SIZE: {os.environ.get('WORLD_SIZE')}")
	print_master(f"MASTER_ADDR: {os.environ.get('MASTER_ADDR')}")
	print_master(f"MASTER_PORT: {os.environ.get('MASTER_PORT')}")
	if dist.is_initialized():
	print_rank(f"dist.get_rank(): {dist.get_rank()}")
	print_rank(f"dist.get_world_size(): {dist.get_world_size()}")

	# 兼容 torchrun 参数
	for arg in sys.argv:
	if arg.startswith("--local-rank="):
	rank = arg.split("=")[1]
	sys.argv.remove(arg)
	sys.argv.append('--local_rank')
	sys.argv.append(rank)

	# ----------------------- Parse args -----------------------
	parser = HfArgumentParser((ModelArguments, DataArguments, TrainingArguments))
	model_args, data_args, training_args = parser.parse_args_into_dataclasses()
	model_args: ModelArguments
	data_args: DataArguments
	training_args: TrainingArguments
	os.makedirs(data_args.encode_output_path, exist_ok=True)

	# 支持多层评测（优先 LM_LAYERS，兼容 MID_LM_LAYER）
	layers_to_eval = get_env_eval_layers()
	print_master(f"Eval layers (qry/tgt): {layers_to_eval}")

	# ----------------------- Model loading -----------------------
	hf_config = AutoConfig.from_pretrained(model_args.model_name, trust_remote_code=True)
	if not getattr(model_args, "model_backbone", None):
	model_backbone = get_backbone_name(hf_config=hf_config, model_type=model_args.model_type)
	setattr(model_args, 'model_backbone', model_backbone)
	setattr(training_args, 'model_backbone', model_backbone)
	print_master(f'Model Backbone: {model_args.model_backbone}')

	# 仅 rank0 下载，其他rank等待缓存
	if local_rank == 0:
	processor = load_processor(model_args, data_args)
	model = MMEBModel.load(model_args, is_trainable=False, processor=processor)
	print_master(f"[rank=0] Loading the model from Huggingface: {model_args.model_name}...")
	if torch.distributed.is_initialized():
	torch.distributed.barrier()
	if local_rank != 0:
	print_rank(f"Loading the model from cache...")
	processor = load_processor(model_args, data_args)
	time.sleep(random.randint(2 * local_rank, 3 * local_rank))
	model = MMEBModel.load(model_args, is_trainable=False, processor=processor)

	model.eval()
	model = model.to(training_args.device, dtype=torch.bfloat16)

	# ---- NEW: AOP 剪裁配置注入（驱动底模里已实现的 AOP 逻辑）----
	aop_cfg = get_env_aop_config()
	if aop_cfg["enabled"]:
	# 1) 写到 LoRA wrapper
	setattr(model.encoder, "aop_prune_config", aop_cfg)

	# 2) 同步到底座（ForConditionalGeneration / Qwen2_5_VLModel）
	try:
	base = model.encoder.get_base_model() if hasattr(model.encoder, "get_base_model") else None
	if base is None and hasattr(model.encoder, "model"):
	base = model.encoder.model
	if base is not None:
	setattr(base, "aop_prune_config", aop_cfg)
	if hasattr(base, "model"): # ForConditionalGeneration.model -> Qwen2_5_VLModel
	setattr(base.model, "aop_prune_config", aop_cfg)
	except Exception as e:
	print_master(f"[AOP] warn: sync cfg to base failed: {e}")

	# 可选：覆盖注意力实现用于分析
	attn_override = aop_cfg.get("attn_impl_override", "")
	if attn_override:
	try:
	if hasattr(model.encoder, "model") and hasattr(model.encoder.model, "config"):
	prev = model.encoder.model.config._attn_implementation
	model.encoder.model.config._attn_implementation = attn_override
	print_master(f"[AOP] override attn impl: {prev} -> {attn_override} (仅测试建议)")
	except Exception as e:
	print_master(f"[AOP] try override attn impl failed: {e}")

	print_master("[AOP] AOP-Prune enabled with config: " + json.dumps({
	"apply_to": aop_cfg.get("apply_to"),
	"layer_idx": aop_cfg.get("layer_idx"),
	"mode": aop_cfg.get("mode"),
	"delta": aop_cfg.get("delta"),
	"K_hat": aop_cfg.get("K_hat"),
	"keep_ratio": aop_cfg.get("keep_ratio"),
	"min_keep": aop_cfg.get("min_keep"),
	"prune_text": aop_cfg.get("prune_text"),
	"prune_vision": aop_cfg.get("prune_vision"),
	"keep_ratio_text": aop_cfg.get("keep_ratio_text"),
	"keep_ratio_vision": aop_cfg.get("keep_ratio_vision"),
	"selection": aop_cfg.get("selection"),
	"attn_agg": aop_cfg.get("attn_agg"),
	}, ensure_ascii=False))
	else:
	print_master("[AOP] disabled (set AOP_ENABLED=1 to enable)")

	# ---- NEW: Vision Pooling 配置注入 ----
	vpool_cfg = get_env_vpool_config()
	if vpool_cfg["enabled"]:
	# 1) 写到 LoRA wrapper
	setattr(model.encoder, "vision_pooling_config", vpool_cfg)
	# 2) 同步到底座（ForConditionalGeneration / Qwen2_5_VLModel）
	try:
	base = model.encoder.get_base_model() if hasattr(model.encoder, "get_base_model") else None
	if base is None and hasattr(model.encoder, "model"):
	base = model.encoder.model
	if base is not None:
	setattr(base, "vision_pooling_config", vpool_cfg)
	if hasattr(base, "model"): # ForConditionalGeneration.model -> Qwen2_5_VLModel
	setattr(base.model, "vision_pooling_config", vpool_cfg)
	except Exception as e:
	print_master(f"[VPOOL] warn: sync cfg to base failed: {e}")

	print_master("[VPOOL] enabled with config: " + json.dumps({
	"apply_to": vpool_cfg.get("apply_to"),
	"layer_idx": vpool_cfg.get("layer_idx"),
	"kernel": vpool_cfg.get("kernel"),
	"stride": vpool_cfg.get("stride"),
	"method": vpool_cfg.get("method"),
	"vision_only": vpool_cfg.get("vision_only"),
	"monitor": vpool_cfg.get("monitor"),
	}, ensure_ascii=False))
	else:
	print_master("[VPOOL] disabled (set VPOOL_ENABLED=1 to enable)")

	# 确保“最后一层”时不裁层（避免类里默认20层的坑）
	model.set_inference_layers(qry_layers=None, tgt_layers=None)

	with open(data_args.dataset_config, 'r') as yaml_file:
	dataset_configs = yaml.safe_load(yaml_file)

	# ----------------------- Main evaluation loop -----------------------
	for dataset_idx, (dataset_name, task_config) in enumerate(dataset_configs.items()):
	if dist.is_initialized():
	dist.barrier()
	print_master(f"\n--- Evaluating {dataset_name} ---")

	# 根据 data_basedir 修正路径
	if data_args.data_basedir is not None:
	for key in ["image_root", "video_root", "frame_root", "clip_root", "data_path"]:
	if data_args.data_basedir and task_config.get(key):
	task_config[key] = os.path.join(data_args.data_basedir, task_config[key])

	# 构建数据集
	full_eval_qry_dataset, corpus = AutoEvalPairDataset.instantiate(model_args=model_args, data_args=data_args, **task_config)
	full_eval_cand_dataset = generate_cand_dataset(full_eval_qry_dataset, corpus)
	eval_qry_dataset, eval_cand_dataset = full_eval_qry_dataset, full_eval_cand_dataset

	if dist.is_initialized():
	world_size = dist.get_world_size()
	padded_qry_dataset, _ = pad_dataset_to_divisible(full_eval_qry_dataset, world_size)
	padded_cand_dataset, _ = pad_dataset_to_divisible(full_eval_cand_dataset, world_size)
	eval_qry_dataset = split_dataset_by_node(padded_qry_dataset, rank=local_rank, world_size=world_size)
	eval_cand_dataset = split_dataset_by_node(padded_cand_dataset, rank=local_rank, world_size=world_size)
	else:
	padded_qry_dataset, padded_cand_dataset = full_eval_qry_dataset, full_eval_cand_dataset

	# 路径索引
	saved_paths = {} # {(side, tag): path}

	# --------- 针对每个层设置（中间层/最后一层）分别编码与保存 ---------
	for keep_layers in layers_to_eval:
	tag = make_layer_tag(keep_layers)
	print_master(f"[{dataset_name}] Start encoding for tag={tag} (keep_layers={keep_layers})")
	# 设置模型层数
	model.set_inference_layers(qry_layers=keep_layers, tgt_layers=keep_layers)

	# 路径
	query_embed_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_qry_{tag}")
	cand_embed_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_tgt_{tag}")
	dataset_info_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_info.jsonl")
	query_inference_stats_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_qry_inference_stats_{tag}.json")
	cand_inference_stats_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_cand_inference_stats_{tag}.json")
	qry_img_masks_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_qry_img_token_masks_{tag}.jsonl")
	cand_img_masks_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_cand_img_token_masks_{tag}.jsonl")
	# 追加四个新文件路径
	qry_txt_masks_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_qry_text_token_masks_{tag}.jsonl")
	qry_token_stats_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_qry_token_stats_{tag}.jsonl")
	cand_txt_masks_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_cand_text_token_masks_{tag}.jsonl")
	cand_token_stats_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_cand_token_stats_{tag}.jsonl")

	saved_paths[("qry", tag)] = query_embed_path
	saved_paths[("tgt", tag)] = cand_embed_path

	do_query = not os.path.exists(query_embed_path) or not os.path.exists(dataset_info_path)
	do_cand = not os.path.exists(cand_embed_path)

	# 动态累计统计
	def init_total_stats():
	return {
	"total_inference_time_seconds": 0.0,
	"module_inference_times": {},
	"token_counts": {
	"visual_tokens": 0,
	"language_input_tokens_raw": 0,
	"llm_total_input_tokens": 0,
	"language_output_tokens": 0,
	},
	"reduction": { # NEW: 删前/删后数量累计
	"sum_pre_text": 0, "sum_post_text": 0,
	"sum_pre_vision": 0, "sum_post_vision": 0,
	"sum_pre_total": 0, "sum_post_total": 0,
	},
	"data_point_count": 0
	}

	def accumulate_stats(total_stats, batch_stats):
	batch_size = batch_stats["batch_size"]
	total_stats["total_inference_time_seconds"] += batch_stats["total_inference_time_seconds"]
	# 模块时间
	for mname, mstats in batch_stats["module_inference_times"].items():
	if mname not in total_stats["module_inference_times"]:
	total_stats["module_inference_times"][mname] = {"total": 0.0, "count": 0}
	total_stats["module_inference_times"][mname]["total"] += mstats.get("total", 0.0)
	total_stats["module_inference_times"][mname]["count"] += mstats.get("count", 0)
	# 原始 token 统计（乘以 batch_size，是为了估计总量）
	total_stats["token_counts"]["visual_tokens"] += batch_stats["token_counts"]["visual_tokens"] * batch_size
	total_stats["token_counts"]["language_input_tokens_raw"] += batch_stats["token_counts"]["language_input_tokens_raw"] * batch_size
	total_stats["token_counts"]["llm_total_input_tokens"] += batch_stats["token_counts"]["llm_total_input_tokens"] * batch_size
	total_stats["token_counts"]["language_output_tokens"] += batch_stats["token_counts"]["language_output_tokens"] * batch_size
	total_stats["data_point_count"] += batch_size

	# NEW: 删减统计
	red = batch_stats.get("token_reduction", None)
	if red is not None:
	for k in total_stats["reduction"].keys():
	total_stats["reduction"][k] += int(red.get(k, 0))

	def finalize_and_save_stats(total_stats, out_path, task_name, encode_side):
	if local_rank != 0:
	return
	if total_stats["data_point_count"] <= 0:
	print_master(f"No data processed for {task_name} [{encode_side}], skip saving stats.")
	return

	n = max(1, total_stats["data_point_count"])
	red = total_stats["reduction"]
	pre_txt, post_txt = red["sum_pre_text"], red["sum_post_text"]
	pre_vis, post_vis = red["sum_pre_vision"], red["sum_post_vision"]
	pre_tot, post_tot = red["sum_pre_total"], red["sum_post_total"]

	avg_text_pruned = (pre_txt - post_txt) / n
	avg_vision_pruned = (pre_vis - post_vis) / n
	avg_total_pruned = (pre_tot - post_tot) / n
	avg_text_keep_ratio = (post_txt / pre_txt) if pre_txt > 0 else 1.0
	avg_vision_keep_ratio = (post_vis / pre_vis) if pre_vis > 0 else 1.0
	avg_total_keep_ratio = (post_tot / pre_tot) if pre_tot > 0 else 1.0

	final_stats = {
	"task_name": task_name,
	"encode_side": encode_side,
	"data_point_count": total_stats["data_point_count"],
	"inference_times": {
	"total_inference_time_seconds": total_stats["total_inference_time_seconds"],
	"avg_inference_time_per_item_seconds": total_stats["total_inference_time_seconds"] / n,
	"module_average_times_per_call": {},
	"module_total_times_seconds": {},
	"module_calls_count": {},
	},
	"token_counts": {
	"total_visual_tokens": total_stats["token_counts"]["visual_tokens"],
	"avg_visual_tokens_per_item": total_stats["token_counts"]["visual_tokens"] / n,
	"total_language_input_tokens_raw": total_stats["token_counts"]["language_input_tokens_raw"],
	"avg_language_input_tokens_raw_per_item": total_stats["token_counts"]["language_input_tokens_raw"] / n,
	"total_llm_total_input_tokens": total_stats["token_counts"]["llm_total_input_tokens"],
	"avg_llm_total_input_tokens_per_item": total_stats["token_counts"]["llm_total_input_tokens"] / n,
	"total_language_output_tokens": total_stats["token_counts"]["language_output_tokens"],
	"avg_language_output_tokens_per_item": total_stats["token_counts"]["language_output_tokens"] / n,
	},
	"token_reduction": { # NEW: 输出平均删减与保留比例
	"avg_text_pruned_per_item": float(avg_text_pruned),
	"avg_vision_pruned_per_item": float(avg_vision_pruned),
	"avg_total_pruned_per_item": float(avg_total_pruned),
	"avg_text_keep_ratio": float(avg_text_keep_ratio),
	"avg_vision_keep_ratio": float(avg_vision_keep_ratio),
	"avg_total_keep_ratio": float(avg_total_keep_ratio),
	"sum_pre_text": int(pre_txt), "sum_post_text": int(post_txt),
	"sum_pre_vision": int(pre_vis), "sum_post_vision": int(post_vis),
	"sum_pre_total": int(pre_tot), "sum_post_total": int(post_tot),
	}
	}
	for mname, mstats in total_stats["module_inference_times"].items():
	total = mstats.get("total", 0.0)
	count = mstats.get("count", 0)
	final_stats["inference_times"]["module_total_times_seconds"][mname] = total
	final_stats["inference_times"]["module_calls_count"][mname] = count
	final_stats["inference_times"]["module_average_times_per_call"][mname] = (total / count) if count > 0 else 0.0

	with open(out_path, 'w', encoding='utf-8') as f:
	json.dump(final_stats, f, ensure_ascii=False, indent=4)
	print_master(f"[{task_name}] {encode_side} inference statistics saved to: {out_path}")

	# ------- Encode queries -------
	if do_query:
	print_master(f"[{tag}] Encoding queries...")
	eval_qry_collator = MultimodalEvalDataCollator(processor, model_args, data_args, "qry")
	eval_qry_loader = DataLoader(
	eval_qry_dataset,
	batch_size=training_args.per_device_eval_batch_size,
	collate_fn=eval_qry_collator,
	num_workers=training_args.dataloader_num_workers
	)
	query_embeds, gt_infos, qry_batch_stats, qry_img_masks, qry_txt_masks, qry_token_records = encode_embeddings(
	model, eval_qry_loader, training_args, model_args, padded_qry_dataset,
	encode_side="qry", description=f"Queries[{tag}] for {dataset_name}"
	)
	# 截断到真实长度
	true_qry_len = len(full_eval_qry_dataset)
	query_embeds = query_embeds[:true_qry_len]
	gt_infos = gt_infos[:true_qry_len]
	qry_img_masks = qry_img_masks[:true_qry_len]
	qry_txt_masks = qry_txt_masks[:true_qry_len] # NEW
	qry_token_records = qry_token_records[:true_qry_len] # NEW

	# 累计统计并保存
	qry_total_stats = init_total_stats()
	for bs in qry_batch_stats:
	accumulate_stats(qry_total_stats, bs)

	if local_rank == 0:
	with open(query_embed_path, 'wb') as f:
	pickle.dump(query_embeds, f)
	if not os.path.exists(dataset_info_path):
	with open(dataset_info_path, 'w') as f:
	for info in gt_infos:
	f.write(json.dumps(info) + '\n')
	# 保存 image masks
	with open(qry_img_masks_path, 'w', encoding='utf-8') as f:
	for i, m in enumerate(qry_img_masks):
	f.write(json.dumps({"index": i, "mask": m}, ensure_ascii=False) + "\n")
	# 保存 text masks（NEW）
	with open(qry_txt_masks_path, 'w', encoding='utf-8') as f:
	for i, m in enumerate(qry_txt_masks):
	f.write(json.dumps({"index": i, "mask": m}, ensure_ascii=False) + "\n")
	# 保存 per-sample token 统计（NEW）
	with open(qry_token_stats_path, 'w', encoding='utf-8') as f:
	for i, rec in enumerate(qry_token_records):
	f.write(json.dumps({"index": i, **rec}, ensure_ascii=False) + "\n")

	print_master(f"Saved query embeddings to {query_embed_path}")
	print_master(f"Saved query image token masks to {qry_img_masks_path}")
	print_master(f"Saved query text token masks to {qry_txt_masks_path}")
	print_master(f"Saved query token stats to {qry_token_stats_path}")

	finalize_and_save_stats(qry_total_stats, query_inference_stats_path, dataset_name, f"query[{tag}]")

	if dist.is_initialized():
	dist.barrier()

	# ------- Encode candidates -------
	if do_cand:
	print_master(f"[{tag}] Encoding candidates...")
	eval_cand_collator = MultimodalEvalDataCollator(processor, model_args, data_args, "cand")
	eval_cand_loader = DataLoader(
	eval_cand_dataset,
	batch_size=training_args.per_device_eval_batch_size,
	collate_fn=eval_cand_collator,
	num_workers=training_args.dataloader_num_workers
	)
	cand_embeds, all_cand_ids, cand_batch_stats, cand_img_masks, cand_txt_masks, cand_token_records = encode_embeddings(
	model, eval_cand_loader, training_args, model_args, padded_cand_dataset,
	encode_side="cand", description=f"Candidates[{tag}] for {dataset_name}"
	)
	true_cand_len = len(full_eval_cand_dataset)
	cand_embeds = cand_embeds[:true_cand_len]
	all_cand_ids = all_cand_ids[:true_cand_len]
	cand_img_masks = cand_img_masks[:true_cand_len]
	cand_txt_masks = cand_txt_masks[:true_cand_len] # NEW
	cand_token_records = cand_token_records[:true_cand_len] # NEW

	cand_total_stats = init_total_stats()
	for bs in cand_batch_stats:
	accumulate_stats(cand_total_stats, bs)

	if local_rank == 0:
	cand_embed_dict = {cid: emb for cid, emb in zip(all_cand_ids, cand_embeds)}
	with open(cand_embed_path, 'wb') as f:
	pickle.dump(cand_embed_dict, f)
	with open(cand_img_masks_path, 'w', encoding='utf-8') as f:
	for cid, m in zip(all_cand_ids, cand_img_masks):
	f.write(json.dumps({"cand_id": str(cid), "mask": m}, ensure_ascii=False) + "\n")
	# 保存 text masks（NEW）
	with open(cand_txt_masks_path, 'w', encoding='utf-8') as f:
	for cid, m in zip(all_cand_ids, cand_txt_masks):
	f.write(json.dumps({"cand_id": str(cid), "mask": m}, ensure_ascii=False) + "\n")
	# 保存 per-sample token 统计（NEW）
	with open(cand_token_stats_path, 'w', encoding='utf-8') as f:
	for cid, rec in zip(all_cand_ids, cand_token_records):
	f.write(json.dumps({"cand_id": str(cid), **rec}, ensure_ascii=False) + "\n")

	print_master(f"Saved candidate embeddings to {cand_embed_path}")
	print_master(f"Saved candidate image token masks to {cand_img_masks_path}")
	print_master(f"Saved candidate text token masks to {cand_txt_masks_path}")
	print_master(f"Saved candidate token stats to {cand_token_stats_path}")

	finalize_and_save_stats(cand_total_stats, cand_inference_stats_path, dataset_name, f"candidate[{tag}]")

	if dist.is_initialized():
	dist.barrier()

	# --------- Scoring per layer + combined + early-exit curve ---------
	if local_rank == 0:
	dataset_info_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_info.jsonl")
	gt_infos = [json.loads(l) for l in open(dataset_info_path)]
	rank_against_all_candidates = task_config.get("eval_type", "global") == "global"
	metrics_to_report = task_config.get("metrics", ["hit", "ndcg", "precision", "recall", "f1", "map", "mrr"])

	layer_tags = [make_layer_tag(l) for l in layers_to_eval]
	sims_by_layer = {} # tag -> list[ dict(cand_id->score) ]

	for tag in layer_tags:
	query_embed_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_qry_{tag}")
	cand_embed_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_tgt_{tag}")

	with open(query_embed_path, 'rb') as f:
	qry_embeds = pickle.load(f)
	with open(cand_embed_path, 'rb') as f:
	cand_embed_dict = pickle.load(f)

	pred_dicts = []
	score_detail_dicts = []
	sims_for_exit = []

	if rank_against_all_candidates:
	cand_keys = list(cand_embed_dict.keys())
	cand_embeds = np.stack([cand_embed_dict[key] for key in cand_keys])

	if isinstance(qry_embeds, np.ndarray) and qry_embeds.ndim == 3:
	# Late-interaction
	qry_embed_t = torch.from_numpy(qry_embeds)
	cand_embeds_t = [torch.from_numpy(np.array(t)) for t in cand_embeds]
	sim_matrix = processor.score(qry_embed_t, cand_embeds_t, batch_size=64).cpu().numpy()
	else:
	sim_matrix = np.dot(qry_embeds, cand_embeds.T)

	ranked_all = np.argsort(-sim_matrix, axis=1)
	for qid, gt_info in tqdm(enumerate(gt_infos), total=len(gt_infos), desc=f"[{tag}] scoring(all) {dataset_name}"):
	ranked_indices = ranked_all[qid]
	rel_docids = gt_info["label_name"] if isinstance(gt_info["label_name"], list) else [gt_info["label_name"]]
	rel_scores = gt_info.get("rel_scores")
	pred_dicts.append({
	"prediction": [cand_keys[i] for i in ranked_indices],
	"label": rel_docids,
	"rel_scores": rel_scores,
	})
	score_detail_dicts.append(build_score_details(qid, cand_keys, sim_matrix[qid], ranked_indices))
	sims_for_exit.append({cand_keys[i]: float(sim_matrix[qid][i]) for i in range(len(cand_keys))})
	else:
	# 非全局：每个query用 gt_info["cand_names"] 的子集进行评分
	for qid, (qry_embed, gt_info) in tqdm(enumerate(zip(qry_embeds, gt_infos)), total=len(gt_infos), desc=f"[{tag}] scoring(local) {dataset_name}"):
	cand_ids_local = gt_info["cand_names"]
	cand_embeds = np.stack([cand_embed_dict[key] for key in cand_ids_local])

	if isinstance(qry_embeds, np.ndarray) and qry_embeds.ndim == 3:
	qry_embed_t = torch.from_numpy(np.array(qry_embed)).unsqueeze(0) # [1, Lq, H]
	cand_embeds_t = [torch.from_numpy(np.array(t)) for t in cand_embeds]
	sim_vec = processor.score(qry_embed_t, cand_embeds_t, batch_size=1024).cpu().numpy()[0]
	else:
	sim_vec = np.dot(qry_embed, cand_embeds.T)

	ranked_indices = np.argsort(-sim_vec)
	rel_docids = gt_info["label_name"] if isinstance(gt_info["label_name"], list) else [gt_info["label_name"]]
	rel_scores = gt_info.get("rel_scores")
	pred_dicts.append({
	"prediction": [cand_ids_local[i] for i in ranked_indices],
	"label": rel_docids,
	"rel_scores": rel_scores,
	})
	score_detail_dicts.append(build_score_details(qid, cand_ids_local, sim_vec, ranked_indices))
	sims_for_exit.append({cid: float(s) for cid, s in zip(cand_ids_local, sim_vec.tolist())})

	# 保存每层指标与详情
	layer_score_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_score_{tag}.json")
	layer_pred_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_pred_{tag}.jsonl")
	layer_detail_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_score_details_{tag}.jsonl")
	metrics = RankingMetrics(metrics_to_report)
	score_dict = metrics.evaluate(pred_dicts)
	score_dict["num_pred"] = len(pred_dicts)
	score_dict["num_data"] = len(gt_infos)
	with open(layer_score_path, "w") as f:
	json.dump(score_dict, f, indent=4)
	with open(layer_pred_path, "w") as f:
	for pred in pred_dicts:
	f.write(json.dumps(pred) + '\n')
	with open(layer_detail_path, "w") as f:
	for detail in score_detail_dicts:
	f.write(json.dumps(detail) + "\n")
	print_master(f"[{dataset_name}] {tag} score: " + json.dumps({k: (f"{v:.4f}" if isinstance(v, (int, float)) else v) for k, v in score_dict.items()}))

	sims_by_layer[tag] = sims_for_exit

	# 合并对比文件 + 早停曲线（仅在存在中间层时）
	if len(layer_tags) == 2 and "layerlast" in layer_tags:
	mid_tag = [t for t in layer_tags if t != "layerlast"][0]
	last_tag = "layerlast"

	# 合并详情：每个query包含 mid/last 的cand_scores、top1、margin
	combined_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_score_details_both_layers.jsonl")
	with open(combined_path, "w", encoding='utf-8') as f:
	for qid in range(len(gt_infos)):
	sims_mid = sims_by_layer[mid_tag][qid]
	sims_last = sims_by_layer[last_tag][qid]

	def top1_cid(sims: dict):
	return max(sims.items(), key=lambda x: x[1])[0] if sims else None
	def margin_of(sims: dict):
	vals = np.array(list(sims.values()), dtype=np.float32)
	return top1_top2_margin_from_array(vals)

	row = {
	"qid": int(qid),
	"label": gt_infos[qid]["label_name"] if isinstance(gt_infos[qid]["label_name"], list) else [gt_infos[qid]["label_name"]],
	"mid": {
	"top1": top1_cid(sims_mid),
	"margin": margin_of(sims_mid),
	"cand_scores": sims_mid
	},
	"last": {
	"top1": top1_cid(sims_last),
	"margin": margin_of(sims_last),
	"cand_scores": sims_last
	}
	}
	f.write(json.dumps(row, ensure_ascii=False) + "\n")
	print_master(f"[{dataset_name}] combined details saved to {combined_path}")

	# 早停曲线（margin 阈值）
	taus = [round(x, 3) for x in np.linspace(0.0, 0.6, 31).tolist()]
	labels = [
	gi["label_name"] if isinstance(gi["label_name"], list) else [gi["label_name"]]
	for gi in gt_infos
	]
	exit_curve = simulate_early_exit_by_margin(
	sims_by_layer[mid_tag], sims_by_layer[last_tag], labels, metrics_to_report, taus, rank_against_all_candidates
	)
	curve_path = os.path.join(data_args.encode_output_path, f"{dataset_name}_early_exit_curve_margin.json")
	with open(curve_path, "w") as f:
	json.dump(exit_curve, f, indent=4)
	print_master(f"[{dataset_name}] early-exit curve saved to {curve_path}")

	if dist.is_initialized():
	dist.barrier()

	if __name__ == '__main__':
	main()