Wildfire-FM / experiments /raw_reference /run_selection_regret_scope_sweep_20260505.py

Initial FireWx-FM artifact release

80ef3b2 verified 4 days ago

13.1 kB

	#!/usr/bin/env python3
	"""Run fixed-feature head-selection regret for global and top-k fire-prone scopes."""

	from __future__ import annotations

	import argparse
	import csv
	import importlib.util
	import json
	import math
	from pathlib import Path
	from typing import Any

	import numpy as np


	BASE_RUNNER = Path(__file__).resolve().parent / "task_scripts" / "run_all_backbone_selection_regret_20260504.py"
	spec = importlib.util.spec_from_file_location("selection_regret_base_20260504", BASE_RUNNER)
	if spec is None or spec.loader is None:
	raise RuntimeError(f"Cannot import base runner: {BASE_RUNNER}")
	base = importlib.util.module_from_spec(spec)
	spec.loader.exec_module(base)

	head_control = base.head_control

	SCOPE_FRACS = (0.05, 0.10, 0.20)
	SCOPE_ORDER = ("global", "top5", "top10", "top20")
	SCOPE_LABELS = {
	"global": "global",
	"top5": "top 5%",
	"top10": "top 10%",
	"top20": "top 20%",
	}


	def parse_args() -> argparse.Namespace:
	parser = argparse.ArgumentParser(description="Selection-regret scope sweep.")
	parser.add_argument("--source-kind", choices=("reference", "attached", "spatial", "alphaearth"), required=True)
	parser.add_argument("--feature-root", type=Path, required=True)
	parser.add_argument("--daily-rows-csv", type=Path)
	parser.add_argument("--support-dir", type=Path)
	parser.add_argument("--alphaearth-cache-root", type=Path)
	parser.add_argument("--output-dir", type=Path, required=True)
	parser.add_argument("--fm-family", type=str, required=True)
	parser.add_argument("--model-tag", type=str, required=True)
	parser.add_argument("--seed", type=int, required=True)
	parser.add_argument("--heads", nargs="+", choices=base.HEADS, default=["linear", "pixel_mlp", "shallow"])
	parser.add_argument("--batch-size", type=int, default=8)
	parser.add_argument("--epochs", type=int, default=2)
	parser.add_argument("--learning-rate", type=float, default=8e-4)
	parser.add_argument("--weight-decay", type=float, default=1e-5)
	parser.add_argument("--pos-weight-cap", type=float, default=150.0)
	parser.add_argument("--device", choices=("cpu", "cuda", "auto"), default="cpu")
	parser.add_argument(
	"--metric-thresholds",
	nargs="+",
	type=float,
	default=[
	1e-5,
	2e-5,
	5e-5,
	1e-4,
	2e-4,
	5e-4,
	1e-3,
	2e-3,
	5e-3,
	1e-2,
	2e-2,
	5e-2,
	8e-2,
	1e-1,
	1.5e-1,
	2e-1,
	3e-1,
	5e-1,
	],
	)
	parser.add_argument("--variants", nargs="+", default=["identity"])
	parser.add_argument("--fire-prone-top-fracs", nargs="+", type=float, default=list(SCOPE_FRACS))
	parser.add_argument("--temporal-steps", type=int, default=3)
	parser.add_argument("--spatial-radius", type=int, default=8)
	parser.add_argument("--buffer-radius", type=int, default=8)
	parser.add_argument("--boundary-radius", type=int, default=8)
	parser.add_argument("--coarse-factor", type=int, default=8)
	parser.add_argument("--time-step-hours", type=int, default=6)
	return parser.parse_args()


	def scope_name(top_frac: float) -> str:
	pct = int(round(float(top_frac) * 100.0))
	return f"top{pct}"


	def scope_label(top_frac: float) -> str:
	pct = int(round(float(top_frac) * 100.0))
	return f"top {pct}%"


	def build_scope_masks(
	split_rows: dict[str, list[dict[str, str]]],
	store: Any,
	top_fracs: list[float],
	) -> tuple[dict[str, np.ndarray \| None], dict[str, dict[str, Any]]]:
	masks: dict[str, np.ndarray \| None] = {"global": None}
	meta: dict[str, dict[str, Any]] = {
	"global": {
	"scope_name": "global",
	"reported_as": "global",
	"top_fraction": None,
	}
	}
	for frac in top_fracs:
	name = scope_name(frac)
	mask, mask_meta = head_control.build_fire_prone_mask(split_rows["train"], store, float(frac))
	masks[name] = mask
	meta[name] = {
	"scope_name": name,
	"reported_as": scope_label(frac),
	**mask_meta,
	}
	return masks, meta


	def build_posthoc_rows_for_scopes(
	probs: np.ndarray,
	targets: np.ndarray,
	sample_times: np.ndarray,
	split: str,
	scope_masks: dict[str, np.ndarray \| None],
	args: argparse.Namespace,
	) -> list[dict[str, object]]:
	rows_out: list[dict[str, object]] = []
	for threshold in [float(v) for v in args.metric_thresholds]:
	base_binary = probs >= threshold
	for variant in args.variants:
	binary = head_control.apply_variant(base_binary, variant)
	tensors = head_control.evaluate_threshold_variant(
	binary_np=binary,
	target_np=targets,
	sample_times=sample_times,
	time_step_hours=args.time_step_hours,
	temporal_steps=args.temporal_steps,
	spatial_radius=args.spatial_radius,
	buffer_radius=args.buffer_radius,
	boundary_radius=args.boundary_radius,
	coarse_factor=args.coarse_factor,
	tolerance_hours=args.temporal_steps * args.time_step_hours,
	)
	for scope, region_mask in scope_masks.items():
	row: dict[str, object] = {
	"split": split,
	"scope": scope,
	"threshold": float(threshold),
	"variant": variant,
	"time_step_hours": int(args.time_step_hours),
	"temporal_steps": int(args.temporal_steps),
	"tolerance_hours": int(args.temporal_steps * args.time_step_hours),
	"spatial_radius": int(args.spatial_radius),
	"buffer_radius": int(args.buffer_radius),
	"boundary_radius": int(args.boundary_radius),
	"coarse_factor": int(args.coarse_factor),
	}
	row.update(head_control.metrics_for_scope(tensors, region_mask))
	rows_out.append(row)
	return rows_out


	def read_csv(path: Path) -> list[dict[str, str]]:
	with path.open("r", encoding="utf-8", newline="") as fh:
	return list(csv.DictReader(fh))


	def load_head_summary(
	head_dir: Path,
	head_arch: str,
	scopes: tuple[str, ...],
	) -> tuple[list[dict[str, object]], dict[str, dict[str, float]], dict[str, object]] \| None:
	posthoc_path = head_dir / "posthoc_rows.csv"
	summary_path = head_dir / "summary.json"
	if not posthoc_path.exists() or not summary_path.exists():
	return None
	rows = [dict(row) for row in read_csv(posthoc_path)]
	if not rows:
	return None
	try:
	summary = json.loads(summary_path.read_text(encoding="utf-8"))
	except json.JSONDecodeError:
	return None
	if str(summary.get("head_arch")) != str(head_arch):
	return None
	raw_pr_auc = summary.get("raw_pr_auc")
	if not isinstance(raw_pr_auc, dict):
	return None
	try:
	parsed_pr_auc = {
	split: {scope: float(raw_pr_auc[split][scope]) for scope in scopes}
	for split in ("val", "test")
	}
	except Exception:
	return None
	return rows, parsed_pr_auc, summary


	def finite_json(value: Any) -> Any:
	if isinstance(value, float):
	return value if math.isfinite(value) else None
	if isinstance(value, dict):
	return {key: finite_json(val) for key, val in value.items()}
	if isinstance(value, list):
	return [finite_json(val) for val in value]
	return value


	def main() -> None:
	args = parse_args()
	args.output_dir.mkdir(parents=True, exist_ok=True)
	base.set_seed(int(args.seed))
	device = base.choose_device(args.device)

	top_fracs = sorted({float(v) for v in args.fire_prone_top_fracs})
	scope_order = ("global",) + tuple(scope_name(frac) for frac in top_fracs)
	base.SCOPE_ORDER = scope_order

	split_rows = {
	split: base.read_rows(args.feature_root / "splits" / f"{split}.csv")
	for split in ("train", "val", "test")
	}
	if args.source_kind == "reference":
	store = base.build_reference_store(split_rows)
	elif args.source_kind == "attached":
	store = base.build_attached_store(args, split_rows)
	elif args.source_kind == "spatial":
	store = base.build_spatial_store(args, split_rows)
	else:
	store = base.build_alphaearth_store(args, split_rows)

	loaders = base.make_loaders(split_rows, store, int(args.batch_size), device, int(args.seed))
	first = next(iter(loaders["train"]))
	in_ch = int(first["x"].shape[1])
	prior_prob = base.total_positive_rate(split_rows["train"])
	scope_masks, scope_meta = build_scope_masks(split_rows, store, top_fracs)

	head_metrics: list[dict[str, object]] = []
	head_artifacts: dict[str, str] = {}
	for head_index, head_arch in enumerate(args.heads):
	head_dir = args.output_dir / head_arch
	head_dir.mkdir(parents=True, exist_ok=True)
	cached = load_head_summary(head_dir, head_arch, scope_order)
	if cached is not None:
	posthoc_rows, raw_pr_auc, _ = cached
	print(f"[scope-sweep] reuse {args.fm_family} seed={args.seed} head={head_arch}", flush=True)
	else:
	print(f"[scope-sweep] training {args.fm_family} seed={args.seed} head={head_arch}", flush=True)
	model, history = base.train_one_head(
	head_arch=head_arch,
	in_ch=in_ch,
	prior_prob=prior_prob,
	loaders=loaders,
	args=args,
	device=device,
	seed_offset=1009 * (head_index + 1),
	)
	posthoc_rows = []
	raw_pr_auc: dict[str, dict[str, float]] = {}
	for split in ("val", "test"):
	probs, targets = base.collect_predictions(model, loaders[split], device)
	sample_times = base.build_sample_times(split_rows[split])
	raw_pr_auc[split] = {
	scope: head_control._masked_average_precision(probs, targets, region_mask=mask)
	for scope, mask in scope_masks.items()
	}
	posthoc_rows.extend(
	build_posthoc_rows_for_scopes(
	probs=probs,
	targets=targets,
	sample_times=sample_times,
	split=split,
	scope_masks=scope_masks,
	args=args,
	)
	)
	base.write_csv(posthoc_rows, head_dir / "posthoc_rows.csv")
	head_summary = {
	"head_arch": head_arch,
	"head_label": head_control.HEAD_LABELS[head_arch],
	"history": history,
	"raw_pr_auc": raw_pr_auc,
	"scope_meta": scope_meta,
	"posthoc_rows_csv": str(head_dir / "posthoc_rows.csv"),
	}
	(head_dir / "summary.json").write_text(json.dumps(finite_json(head_summary), indent=2), encoding="utf-8")
	head_artifacts[head_arch] = str(head_dir / "summary.json")
	base.append_head_metrics(head_metrics, posthoc_rows, raw_pr_auc, head_arch, args)

	selection_rows = base.summarize_head_scores(head_metrics)
	for row in selection_rows:
	row["model_tag"] = args.model_tag
	row["family"] = args.fm_family
	row["seed"] = int(args.seed)

	base.write_csv(head_metrics, args.output_dir / "head_metrics.csv")
	base.write_csv(selection_rows, args.output_dir / "selection_rows.csv")
	summary = {
	"experiment": "fixed-feature head-selection regret scope sweep",
	"task": "wildfire_occupancy",
	"model_tag": args.model_tag,
	"fm_family": args.fm_family,
	"source_kind": args.source_kind,
	"seed": int(args.seed),
	"feature_root": str(args.feature_root),
	"daily_rows_csv": str(args.daily_rows_csv) if args.daily_rows_csv else None,
	"support_dir": str(args.support_dir) if args.support_dir else None,
	"alphaearth_cache_root": str(args.alphaearth_cache_root) if args.alphaearth_cache_root else None,
	"device": str(device),
	"heads": list(args.heads),
	"scope_order": list(scope_order),
	"scope_meta": scope_meta,
	"input_channels": int(in_ch),
	"prior_prob": float(prior_prob),
	"metrics": base.METRICS,
	"head_metrics": head_metrics,
	"selection_rows": selection_rows,
	"head_artifacts": head_artifacts,
	"artifacts": {
	"head_metrics_csv": str(args.output_dir / "head_metrics.csv"),
	"selection_rows_csv": str(args.output_dir / "selection_rows.csv"),
	},
	}
	(args.output_dir / "summary.json").write_text(json.dumps(finite_json(summary), indent=2), encoding="utf-8")
	print(json.dumps(finite_json(summary), indent=2), flush=True)


	if __name__ == "__main__":
	main()