Zekai Wang commited on 11 days ago

Commit

c641413

1 Parent(s): cbf192e

Release ORCA TTT-Probes (17 configurations across 3 LLMs)

17 trained Test-Time Training probes for the paper Online Reasoning
Calibration: Test-Time Training Enables Generalizable Conformal LLM
Reasoning (arXiv:2604.01170).

Each probe directory contains: probe.pt (state dict), config.json
(training hyperparameters), lambdas.json (LTT thresholds), metrics.json
(savings/error per delta), and ood_*.json (per-OOD-benchmark metrics
for Qwen2.5-32B variants).

Coverage:
- Qwen2.5-32B supervised: no_kq + qk_dh{32,64,128,256,512} + 5 architecture variants
- Qwen2.5-32B consistent: no_kq, qk_dh128
- QwQ-32B supervised: no_kq, qk_dh128
- Llama-3.3-70B supervised: no_kq, qk_dh128

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

README.md +69 -3
llama-3.3-70b/supervised/no_kq/config.json +43 -0
llama-3.3-70b/supervised/no_kq/lambdas.json +13 -0
llama-3.3-70b/supervised/no_kq/metrics.json +70 -0
llama-3.3-70b/supervised/no_kq/ood_aime24.json +68 -0
llama-3.3-70b/supervised/no_kq/ood_aime25.json +68 -0
llama-3.3-70b/supervised/no_kq/ood_aime26.json +68 -0
llama-3.3-70b/supervised/no_kq/ood_gpqa_diamond.json +68 -0
llama-3.3-70b/supervised/no_kq/ood_math500.json +68 -0
llama-3.3-70b/supervised/no_kq/probe.pt +3 -0
llama-3.3-70b/supervised/qk_dh128/config.json +43 -0
llama-3.3-70b/supervised/qk_dh128/lambdas.json +13 -0
llama-3.3-70b/supervised/qk_dh128/metrics.json +70 -0
llama-3.3-70b/supervised/qk_dh128/ood_aime24.json +68 -0
llama-3.3-70b/supervised/qk_dh128/ood_aime25.json +68 -0
llama-3.3-70b/supervised/qk_dh128/ood_aime26.json +68 -0
llama-3.3-70b/supervised/qk_dh128/ood_gpqa_diamond.json +68 -0
llama-3.3-70b/supervised/qk_dh128/ood_math500.json +68 -0
llama-3.3-70b/supervised/qk_dh128/probe.pt +3 -0
qwen2.5-32b/consistent/no_kq/config.json +42 -0
qwen2.5-32b/consistent/no_kq/lambdas.json +13 -0
qwen2.5-32b/consistent/no_kq/metrics.json +70 -0
qwen2.5-32b/consistent/no_kq/ood_aime24.json +68 -0
qwen2.5-32b/consistent/no_kq/ood_aime25.json +68 -0
qwen2.5-32b/consistent/no_kq/ood_aime26.json +68 -0
qwen2.5-32b/consistent/no_kq/ood_gpqa_diamond.json +68 -0
qwen2.5-32b/consistent/no_kq/ood_math500.json +68 -0
qwen2.5-32b/consistent/no_kq/probe.pt +3 -0
qwen2.5-32b/consistent/qk_dh128/config.json +42 -0
qwen2.5-32b/consistent/qk_dh128/lambdas.json +13 -0
qwen2.5-32b/consistent/qk_dh128/metrics.json +70 -0
qwen2.5-32b/consistent/qk_dh128/ood_aime24.json +68 -0
qwen2.5-32b/consistent/qk_dh128/ood_aime25.json +68 -0
qwen2.5-32b/consistent/qk_dh128/ood_aime26.json +68 -0
qwen2.5-32b/consistent/qk_dh128/ood_gpqa_diamond.json +68 -0
qwen2.5-32b/consistent/qk_dh128/ood_math500.json +68 -0
qwen2.5-32b/consistent/qk_dh128/probe.pt +3 -0
qwen2.5-32b/supervised/no_kq/config.json +42 -0
qwen2.5-32b/supervised/no_kq/lambdas.json +13 -0
qwen2.5-32b/supervised/no_kq/metrics.json +70 -0
qwen2.5-32b/supervised/no_kq/ood_aime24.json +68 -0
qwen2.5-32b/supervised/no_kq/ood_aime25.json +68 -0
qwen2.5-32b/supervised/no_kq/ood_aime26.json +68 -0
qwen2.5-32b/supervised/no_kq/ood_gpqa_diamond.json +68 -0
qwen2.5-32b/supervised/no_kq/ood_math500.json +68 -0
qwen2.5-32b/supervised/no_kq/probe.pt +3 -0
qwen2.5-32b/supervised/qk_dh128/config.json +42 -0
qwen2.5-32b/supervised/qk_dh128/lambdas.json +13 -0
qwen2.5-32b/supervised/qk_dh128/metrics.json +70 -0
qwen2.5-32b/supervised/qk_dh128/ood_aime24.json +68 -0

README.md CHANGED Viewed

@@ -1,3 +1,69 @@
----
-license: mit
----

+---
+license: mit
+library_name: pytorch
+tags:
+  - test-time-training
+  - conformal-prediction
+  - reasoning
+  - early-stopping
+  - llm
+datasets:
+  - wzekai99/ORCA
+---
+# ORCA TTT-Probes
+Trained Test-Time Training probes for *Online Reasoning Calibration: Test-Time Training Enables Generalizable Conformal LLM Reasoning* ([arXiv:2604.01170](https://arxiv.org/abs/2604.01170)).
+## Layout (17 probes)
+```
+qwen2.5-32b/supervised/{no_kq, qk_dh128,
+                        qk_dh32, qk_dh64, qk_dh256, qk_dh512,
+                        qk_dh128_ln, qk_dh128_ln_res, qk_dh128_share_kq,
+                        qk_dh128_eta_learn, qk_dh128_mlp}/
+qwen2.5-32b/consistent/{no_kq, qk_dh128}/
+qwq-32b/supervised/{no_kq, qk_dh128}/
+llama-3.3-70b/supervised/{no_kq, qk_dh128}/
+```
+Per probe directory:
+| File              | Contents                                                       |
+|-------------------|----------------------------------------------------------------|
+| `probe.pt`        | State dict: W0, b0, log_eta; QK variants also include theta_K, theta_Q |
+| `config.json`     | Training hyperparameters (d_hidden, base_lr, epochs, ...)      |
+| `lambdas.json`    | LTT thresholds, keyed by delta                                 |
+| `metrics.json`    | Step-level savings and error rate per delta                    |
+| `ood_*.json`      | Per-OOD-benchmark metrics (Qwen2.5-32B probes only)            |
+## Use
+Probes are loaded by the `TTTProbe` class in https://github.com/wzekai99/ORCA. Quick example:
+```bash
+hf download wzekai99/ORCA --local-dir probes
+hf download wzekai99/ORCA --repo-type dataset --local-dir data
+python code/test.py \
+    --method ttt --no_kq \
+    --dataset_path data/qwen2.5-32b/s1k.pkl \
+                   data/qwen2.5-32b/openr1_2k.pkl \
+                   data/qwen2.5-32b/deepmath_2k.pkl \
+    --probe_path probes/qwen2.5-32b/supervised/no_kq/probe.pt \
+    --label_mode supervised --delta 0.1 --epsilon 0.05
+```
+## License
+MIT.
+## Citation
+```bibtex
+@article{zhou2026online,
+  title={Online Reasoning Calibration: Test-Time Training Enables Generalizable Conformal LLM Reasoning},
+  author={Zhou, Cai and Wang, Zekai and Wu, Menghua and Zhu, Qianyu Julie and Shi, Flora C and Wang, Chenyu and Wilson, Ashia and Jaakkola, Tommi and Bates, Stephen},
+  journal={arXiv preprint arXiv:2604.01170},
+  year={2026}
+}
+```

llama-3.3-70b/supervised/no_kq/config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "config": "configs/llama70b_5k.yaml",
+  "method": "ttt",
+  "dataset_path": [
+    "data_prepare/output/llama70b/s1k/dataset.pkl",
+    "data_prepare/output/llama70b/openr1_2k/dataset.pkl",
+    "data_prepare/output/llama70b/deepmath_2k/dataset.pkl"
+  ],
+  "ood_paths": [
+    "data_prepare/output/llama70b/aime24/dataset.pkl",
+    "data_prepare/output/llama70b/aime25/dataset.pkl",
+    "data_prepare/output/llama70b/aime26/dataset.pkl",
+    "data_prepare/output/llama70b/math500/dataset.pkl",
+    "data_prepare/output/llama70b/gpqa_diamond/dataset.pkl"
+  ],
+  "output_dir": "results/llama70b_5k",
+  "label_mode": "supervised",
+  "batch_size": 10,
+  "seed": 42,
+  "smooth_window": 10,
+  "run_name": "ttt__no_kq__lr0.01__ep40",
+  "d_hidden": 64,
+  "use_ln": false,
+  "use_residual": false,
+  "learnable_eta": false,
+  "base_lr": 0.01,
+  "share_kq": false,
+  "use_mlp": false,
+  "use_pca": false,
+  "pca_dim": 256,
+  "epochs": 20,
+  "outer_lr": 0.001,
+  "no_meta_train": false,
+  "no_online_update": false,
+  "no_kq": true,
+  "grad_clip": 1.0,
+  "force_retrain": true,
+  "save_every": 10,
+  "d_phi": 8192,
+  "timestamp": "2026-03-30T01:32:49.432549",
+  "release_target": "llama-3.3-70b/supervised/no_kq",
+  "release_probe_source": "llama70b_5k/supervised/ttt__no_kq__lr0.01__ep40/checkpoints/probe_ep20.pt"
+}

llama-3.3-70b/supervised/no_kq/lambdas.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "0.01": 0.9382,
+  "0.025": 0.9159,
+  "0.05": 0.8886000000000001,
+  "0.1": 0.8489,
+  "0.15": 0.8142,
+  "0.2": 0.7734,
+  "0.25": 0.7363,
+  "0.3": 0.7017,
+  "0.35": 0.6558999999999999,
+  "0.4": 0.5794,
+  "0.5": 9.999999999998899e-05
+}

llama-3.3-70b/supervised/no_kq/metrics.json ADDED Viewed

	@@ -0,0 +1,70 @@

+{
+  "eps_results": {
+    "0.01": {
+      "lambda": 0.9382,
+      "error_rate": 0.0086,
+      "savings": 0.052,
+      "accuracy": 0.9914
+    },
+    "0.025": {
+      "lambda": 0.9159,
+      "error_rate": 0.0235,
+      "savings": 0.1457,
+      "accuracy": 0.9765
+    },
+    "0.05": {
+      "lambda": 0.8886000000000001,
+      "error_rate": 0.046,
+      "savings": 0.2702,
+      "accuracy": 0.954
+    },
+    "0.1": {
+      "lambda": 0.8489,
+      "error_rate": 0.0898,
+      "savings": 0.4238,
+      "accuracy": 0.9102
+    },
+    "0.15": {
+      "lambda": 0.8142,
+      "error_rate": 0.1305,
+      "savings": 0.5281,
+      "accuracy": 0.8695
+    },
+    "0.2": {
+      "lambda": 0.7734,
+      "error_rate": 0.1861,
+      "savings": 0.6321,
+      "accuracy": 0.8139
+    },
+    "0.25": {
+      "lambda": 0.7363,
+      "error_rate": 0.2257,
+      "savings": 0.7091,
+      "accuracy": 0.7743
+    },
+    "0.3": {
+      "lambda": 0.7017,
+      "error_rate": 0.2717,
+      "savings": 0.7679,
+      "accuracy": 0.7283
+    },
+    "0.35": {
+      "lambda": 0.6558999999999999,
+      "error_rate": 0.323,
+      "savings": 0.834,
+      "accuracy": 0.677
+    },
+    "0.4": {
+      "lambda": 0.5794,
+      "error_rate": 0.3775,
+      "savings": 0.9036,
+      "accuracy": 0.6225
+    },
+    "0.5": {
+      "lambda": 9.999999999998899e-05,
+      "error_rate": 0.4075,
+      "savings": 0.9497,
+      "accuracy": 0.5925
+    }
+  }
+}

llama-3.3-70b/supervised/no_kq/ood_aime24.json ADDED Viewed

	@@ -0,0 +1,68 @@

+{
+  "0.01": {
+    "lambda": 0.9382,
+    "error_rate": 0.0,
+    "savings": 0.0024,
+    "accuracy": 1.0
+  },
+  "0.025": {
+    "lambda": 0.9159,
+    "error_rate": 0.0,
+    "savings": 0.0338,
+    "accuracy": 1.0
+  },
+  "0.05": {
+    "lambda": 0.8886000000000001,
+    "error_rate": 0.0,
+    "savings": 0.0952,
+    "accuracy": 1.0
+  },
+  "0.1": {
+    "lambda": 0.8489,
+    "error_rate": 0.0435,
+    "savings": 0.2057,
+    "accuracy": 0.9565
+  },
+  "0.15": {
+    "lambda": 0.8142,
+    "error_rate": 0.087,
+    "savings": 0.3153,
+    "accuracy": 0.913
+  },
+  "0.2": {
+    "lambda": 0.7734,
+    "error_rate": 0.2174,
+    "savings": 0.3871,
+    "accuracy": 0.7826
+  },
+  "0.25": {
+    "lambda": 0.7363,
+    "error_rate": 0.2609,
+    "savings": 0.5131,
+    "accuracy": 0.7391
+  },
+  "0.3": {
+    "lambda": 0.7017,
+    "error_rate": 0.3043,
+    "savings": 0.5721,
+    "accuracy": 0.6957
+  },
+  "0.35": {
+    "lambda": 0.6558999999999999,
+    "error_rate": 0.3913,
+    "savings": 0.6936,
+    "accuracy": 0.6087
+  },
+  "0.4": {
+    "lambda": 0.5794,
+    "error_rate": 0.4783,
+    "savings": 0.7992,
+    "accuracy": 0.5217
+  },
+  "0.5": {
+    "lambda": 9.999999999998899e-05,
+    "error_rate": 0.5217,
+    "savings": 0.9626,
+    "accuracy": 0.4783
+  }
+}

llama-3.3-70b/supervised/no_kq/ood_aime25.json ADDED Viewed

	@@ -0,0 +1,68 @@

+{
+  "0.01": {
+    "lambda": 0.9382,
+    "error_rate": 0.0,
+    "savings": 0.0,
+    "accuracy": 1.0
+  },
+  "0.025": {
+    "lambda": 0.9159,
+    "error_rate": 0.0,
+    "savings": 0.0118,
+    "accuracy": 1.0
+  },
+  "0.05": {
+    "lambda": 0.8886000000000001,
+    "error_rate": 0.0,
+    "savings": 0.1162,
+    "accuracy": 1.0
+  },
+  "0.1": {
+    "lambda": 0.8489,
+    "error_rate": 0.0476,
+    "savings": 0.2534,
+    "accuracy": 0.9524
+  },
+  "0.15": {
+    "lambda": 0.8142,
+    "error_rate": 0.0952,
+    "savings": 0.3326,
+    "accuracy": 0.9048
+  },
+  "0.2": {
+    "lambda": 0.7734,
+    "error_rate": 0.2381,
+    "savings": 0.4854,
+    "accuracy": 0.7619
+  },
+  "0.25": {
+    "lambda": 0.7363,
+    "error_rate": 0.2381,
+    "savings": 0.5396,
+    "accuracy": 0.7619
+  },
+  "0.3": {
+    "lambda": 0.7017,
+    "error_rate": 0.3333,
+    "savings": 0.7042,
+    "accuracy": 0.6667
+  },
+  "0.35": {
+    "lambda": 0.6558999999999999,
+    "error_rate": 0.4286,
+    "savings": 0.7611,
+    "accuracy": 0.5714
+  },
+  "0.4": {
+    "lambda": 0.5794,
+    "error_rate": 0.6667,
+    "savings": 0.8989,
+    "accuracy": 0.3333
+  },
+  "0.5": {
+    "lambda": 9.999999999998899e-05,
+    "error_rate": 0.7619,
+    "savings": 0.9683,
+    "accuracy": 0.2381
+  }
+}

llama-3.3-70b/supervised/no_kq/ood_aime26.json ADDED Viewed

	@@ -0,0 +1,68 @@

+{
+  "0.01": {
+    "lambda": 0.9382,
+    "error_rate": 0.0,
+    "savings": 0.0131,
+    "accuracy": 1.0
+  },
+  "0.025": {
+    "lambda": 0.9159,
+    "error_rate": 0.0,
+    "savings": 0.0246,
+    "accuracy": 1.0
+  },
+  "0.05": {
+    "lambda": 0.8886000000000001,
+    "error_rate": 0.0,
+    "savings": 0.0873,
+    "accuracy": 1.0
+  },
+  "0.1": {
+    "lambda": 0.8489,
+    "error_rate": 0.0385,
+    "savings": 0.2188,
+    "accuracy": 0.9615
+  },
+  "0.15": {
+    "lambda": 0.8142,
+    "error_rate": 0.1154,
+    "savings": 0.3183,
+    "accuracy": 0.8846
+  },
+  "0.2": {
+    "lambda": 0.7734,
+    "error_rate": 0.2692,
+    "savings": 0.5766,
+    "accuracy": 0.7308
+  },
+  "0.25": {
+    "lambda": 0.7363,
+    "error_rate": 0.3846,
+    "savings": 0.6703,
+    "accuracy": 0.6154
+  },
+  "0.3": {
+    "lambda": 0.7017,
+    "error_rate": 0.4231,
+    "savings": 0.734,
+    "accuracy": 0.5769
+  },
+  "0.35": {
+    "lambda": 0.6558999999999999,
+    "error_rate": 0.5385,
+    "savings": 0.8369,
+    "accuracy": 0.4615
+  },
+  "0.4": {
+    "lambda": 0.5794,
+    "error_rate": 0.6154,
+    "savings": 0.9442,
+    "accuracy": 0.3846
+  },
+  "0.5": {
+    "lambda": 9.999999999998899e-05,
+    "error_rate": 0.6154,
+    "savings": 0.9686,
+    "accuracy": 0.3846
+  }
+}

llama-3.3-70b/supervised/no_kq/ood_gpqa_diamond.json ADDED Viewed

	@@ -0,0 +1,68 @@

+{
+  "0.01": {
+    "lambda": 0.9382,
+    "error_rate": 0.0377,
+    "savings": 0.097,
+    "accuracy": 0.9623
+  },
+  "0.025": {
+    "lambda": 0.9159,
+    "error_rate": 0.0849,
+    "savings": 0.2106,
+    "accuracy": 0.9151
+  },
+  "0.05": {
+    "lambda": 0.8886000000000001,
+    "error_rate": 0.1887,
+    "savings": 0.3912,
+    "accuracy": 0.8113
+  },
+  "0.1": {
+    "lambda": 0.8489,
+    "error_rate": 0.3491,
+    "savings": 0.6266,
+    "accuracy": 0.6509
+  },
+  "0.15": {
+    "lambda": 0.8142,
+    "error_rate": 0.3868,
+    "savings": 0.7771,
+    "accuracy": 0.6132
+  },
+  "0.2": {
+    "lambda": 0.7734,
+    "error_rate": 0.4434,
+    "savings": 0.8936,
+    "accuracy": 0.5566
+  },
+  "0.25": {
+    "lambda": 0.7363,
+    "error_rate": 0.4528,
+    "savings": 0.9361,
+    "accuracy": 0.5472
+  },
+  "0.3": {
+    "lambda": 0.7017,
+    "error_rate": 0.4811,
+    "savings": 0.9536,
+    "accuracy": 0.5189
+  },
+  "0.35": {
+    "lambda": 0.6558999999999999,
+    "error_rate": 0.4811,
+    "savings": 0.9657,
+    "accuracy": 0.5189
+  },
+  "0.4": {
+    "lambda": 0.5794,
+    "error_rate": 0.4811,
+    "savings": 0.9695,
+    "accuracy": 0.5189
+  },
+  "0.5": {
+    "lambda": 9.999999999998899e-05,
+    "error_rate": 0.4811,
+    "savings": 0.9695,
+    "accuracy": 0.5189
+  }
+}

llama-3.3-70b/supervised/no_kq/ood_math500.json ADDED Viewed

	@@ -0,0 +1,68 @@

+{
+  "0.01": {
+    "lambda": 0.9382,
+    "error_rate": 0.002,
+    "savings": 0.1291,
+    "accuracy": 0.998
+  },
+  "0.025": {
+    "lambda": 0.9159,
+    "error_rate": 0.0041,
+    "savings": 0.2712,
+    "accuracy": 0.9959
+  },
+  "0.05": {
+    "lambda": 0.8886000000000001,
+    "error_rate": 0.0122,
+    "savings": 0.4343,
+    "accuracy": 0.9878
+  },
+  "0.1": {
+    "lambda": 0.8489,
+    "error_rate": 0.0265,
+    "savings": 0.599,
+    "accuracy": 0.9735
+  },
+  "0.15": {
+    "lambda": 0.8142,
+    "error_rate": 0.0407,
+    "savings": 0.6907,
+    "accuracy": 0.9593
+  },
+  "0.2": {
+    "lambda": 0.7734,
+    "error_rate": 0.0713,
+    "savings": 0.7782,
+    "accuracy": 0.9287
+  },
+  "0.25": {
+    "lambda": 0.7363,
+    "error_rate": 0.0774,
+    "savings": 0.8149,
+    "accuracy": 0.9226
+  },
+  "0.3": {
+    "lambda": 0.7017,
+    "error_rate": 0.0957,
+    "savings": 0.8389,
+    "accuracy": 0.9043
+  },
+  "0.35": {
+    "lambda": 0.6558999999999999,
+    "error_rate": 0.1079,
+    "savings": 0.8603,
+    "accuracy": 0.8921
+  },
+  "0.4": {
+    "lambda": 0.5794,
+    "error_rate": 0.1161,
+    "savings": 0.8721,
+    "accuracy": 0.8839
+  },
+  "0.5": {
+    "lambda": 9.999999999998899e-05,
+    "error_rate": 0.1181,
+    "savings": 0.8764,
+    "accuracy": 0.8819
+  }
+}

llama-3.3-70b/supervised/no_kq/probe.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a4fd23e7f353e515c4829282b8ff92f01ce1ea5b447da6219a2a42dea3b4af8f
+size 34940

llama-3.3-70b/supervised/qk_dh128/config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "config": "configs/llama70b_5k.yaml",
+  "method": "ttt",
+  "dataset_path": [
+    "data_prepare/output/llama70b/s1k/dataset.pkl",
+    "data_prepare/output/llama70b/openr1_2k/dataset.pkl",
+    "data_prepare/output/llama70b/deepmath_2k/dataset.pkl"
+  ],
+  "ood_paths": [
+    "data_prepare/output/llama70b/aime24/dataset.pkl",
+    "data_prepare/output/llama70b/aime25/dataset.pkl",
+    "data_prepare/output/llama70b/aime26/dataset.pkl",
+    "data_prepare/output/llama70b/math500/dataset.pkl",
+    "data_prepare/output/llama70b/gpqa_diamond/dataset.pkl"
+  ],
+  "output_dir": "results/llama70b_5k",
+  "label_mode": "supervised",
+  "batch_size": 10,
+  "seed": 42,
+  "smooth_window": 10,
+  "run_name": "ttt__dh128__lr0.01__ep40",
+  "d_hidden": 128,
+  "use_ln": false,
+  "use_residual": false,
+  "learnable_eta": false,
+  "base_lr": 0.01,
+  "share_kq": false,
+  "use_mlp": false,
+  "use_pca": false,
+  "pca_dim": 256,
+  "epochs": 10,
+  "outer_lr": 0.001,
+  "no_meta_train": false,
+  "no_online_update": false,
+  "no_kq": false,
+  "grad_clip": 1.0,
+  "force_retrain": true,
+  "save_every": 10,
+  "d_phi": 8192,
+  "timestamp": "2026-03-30T01:38:20.174996",
+  "release_target": "llama-3.3-70b/supervised/qk_dh128",
+  "release_probe_source": "llama70b_5k/supervised/ttt__dh128__lr0.01__final_ep10/probe.pt"
+}

llama-3.3-70b/supervised/qk_dh128/lambdas.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "0.01": 0.9969,
+  "0.025": 0.9913,
+  "0.05": 0.9856,
+  "0.1": 0.971,
+  "0.15": 0.9573,
+  "0.2": 0.9441,
+  "0.25": 0.9275,
+  "0.3": 0.9108,
+  "0.35": 0.877,
+  "0.4": 0.8209,
+  "0.5": 9.999999999998899e-05
+}

llama-3.3-70b/supervised/qk_dh128/metrics.json ADDED Viewed

	@@ -0,0 +1,70 @@

+{
+  "eps_results": {
+    "0.01": {
+      "lambda": 0.9969,
+      "error_rate": 0.0053,
+      "savings": 0.0223,
+      "accuracy": 0.9947
+    },
+    "0.025": {
+      "lambda": 0.9913,
+      "error_rate": 0.016,
+      "savings": 0.0884,
+      "accuracy": 0.984
+    },
+    "0.05": {
+      "lambda": 0.9856,
+      "error_rate": 0.0385,
+      "savings": 0.1767,
+      "accuracy": 0.9615
+    },
+    "0.1": {
+      "lambda": 0.971,
+      "error_rate": 0.0813,
+      "savings": 0.378,
+      "accuracy": 0.9187
+    },
+    "0.15": {
+      "lambda": 0.9573,
+      "error_rate": 0.139,
+      "savings": 0.5199,
+      "accuracy": 0.861
+    },
+    "0.2": {
+      "lambda": 0.9441,
+      "error_rate": 0.1754,
+      "savings": 0.6083,
+      "accuracy": 0.8246
+    },
+    "0.25": {
+      "lambda": 0.9275,
+      "error_rate": 0.2235,
+      "savings": 0.7029,
+      "accuracy": 0.7765
+    },
+    "0.3": {
+      "lambda": 0.9108,
+      "error_rate": 0.2556,
+      "savings": 0.7558,
+      "accuracy": 0.7444
+    },
+    "0.35": {
+      "lambda": 0.877,
+      "error_rate": 0.3123,
+      "savings": 0.8364,
+      "accuracy": 0.6877
+    },
+    "0.4": {
+      "lambda": 0.8209,
+      "error_rate": 0.3679,
+      "savings": 0.9008,
+      "accuracy": 0.6321
+    },
+    "0.5": {
+      "lambda": 9.999999999998899e-05,
+      "error_rate": 0.4075,
+      "savings": 0.9497,
+      "accuracy": 0.5925
+    }
+  }
+}

llama-3.3-70b/supervised/qk_dh128/ood_aime24.json ADDED Viewed

	@@ -0,0 +1,68 @@

+{
+  "0.01": {
+    "lambda": 0.9969,
+    "error_rate": 0.0,
+    "savings": 0.0,
+    "accuracy": 1.0
+  },
+  "0.025": {
+    "lambda": 0.9913,
+    "error_rate": 0.0,
+    "savings": 0.0245,
+    "accuracy": 1.0
+  },
+  "0.05": {
+    "lambda": 0.9856,
+    "error_rate": 0.0,
+    "savings": 0.0647,
+    "accuracy": 1.0
+  },
+  "0.1": {
+    "lambda": 0.971,
+    "error_rate": 0.087,
+    "savings": 0.1996,
+    "accuracy": 0.913
+  },
+  "0.15": {
+    "lambda": 0.9573,
+    "error_rate": 0.1739,
+    "savings": 0.402,
+    "accuracy": 0.8261
+  },
+  "0.2": {
+    "lambda": 0.9441,
+    "error_rate": 0.1739,
+    "savings": 0.4575,
+    "accuracy": 0.8261
+  },
+  "0.25": {
+    "lambda": 0.9275,
+    "error_rate": 0.3478,
+    "savings": 0.5821,
+    "accuracy": 0.6522
+  },
+  "0.3": {
+    "lambda": 0.9108,
+    "error_rate": 0.3913,
+    "savings": 0.7312,
+    "accuracy": 0.6087
+  },
+  "0.35": {
+    "lambda": 0.877,
+    "error_rate": 0.4783,
+    "savings": 0.8874,
+    "accuracy": 0.5217
+  },
+  "0.4": {
+    "lambda": 0.8209,
+    "error_rate": 0.5217,
+    "savings": 0.927,
+    "accuracy": 0.4783
+  },
+  "0.5": {
+    "lambda": 9.999999999998899e-05,
+    "error_rate": 0.5217,
+    "savings": 0.9626,
+    "accuracy": 0.4783
+  }
+}

llama-3.3-70b/supervised/qk_dh128/ood_aime25.json ADDED Viewed

	@@ -0,0 +1,68 @@

+{
+  "0.01": {
+    "lambda": 0.9969,
+    "error_rate": 0.0,
+    "savings": 0.0,
+    "accuracy": 1.0
+  },
+  "0.025": {
+    "lambda": 0.9913,
+    "error_rate": 0.0,
+    "savings": 0.0292,
+    "accuracy": 1.0
+  },
+  "0.05": {
+    "lambda": 0.9856,
+    "error_rate": 0.0,
+    "savings": 0.0833,
+    "accuracy": 1.0
+  },
+  "0.1": {
+    "lambda": 0.971,
+    "error_rate": 0.0952,
+    "savings": 0.3089,
+    "accuracy": 0.9048
+  },
+  "0.15": {
+    "lambda": 0.9573,
+    "error_rate": 0.1429,
+    "savings": 0.3788,
+    "accuracy": 0.8571
+  },
+  "0.2": {
+    "lambda": 0.9441,
+    "error_rate": 0.1429,
+    "savings": 0.424,
+    "accuracy": 0.8571
+  },
+  "0.25": {
+    "lambda": 0.9275,
+    "error_rate": 0.2857,
+    "savings": 0.5585,
+    "accuracy": 0.7143
+  },
+  "0.3": {
+    "lambda": 0.9108,
+    "error_rate": 0.381,
+    "savings": 0.6373,
+    "accuracy": 0.619
+  },
+  "0.35": {
+    "lambda": 0.877,
+    "error_rate": 0.5238,
+    "savings": 0.7687,
+    "accuracy": 0.4762
+  },
+  "0.4": {
+    "lambda": 0.8209,
+    "error_rate": 0.6667,
+    "savings": 0.9211,
+    "accuracy": 0.3333
+  },
+  "0.5": {
+    "lambda": 9.999999999998899e-05,
+    "error_rate": 0.7619,
+    "savings": 0.9683,
+    "accuracy": 0.2381
+  }
+}

llama-3.3-70b/supervised/qk_dh128/ood_aime26.json ADDED Viewed

	@@ -0,0 +1,68 @@

+{
+  "0.01": {
+    "lambda": 0.9969,
+    "error_rate": 0.0,
+    "savings": 0.017,
+    "accuracy": 1.0
+  },
+  "0.025": {
+    "lambda": 0.9913,
+    "error_rate": 0.0,
+    "savings": 0.0263,
+    "accuracy": 1.0
+  },
+  "0.05": {
+    "lambda": 0.9856,
+    "error_rate": 0.0385,
+    "savings": 0.0995,
+    "accuracy": 0.9615
+  },
+  "0.1": {
+    "lambda": 0.971,
+    "error_rate": 0.1154,
+    "savings": 0.3059,
+    "accuracy": 0.8846
+  },
+  "0.15": {
+    "lambda": 0.9573,
+    "error_rate": 0.2692,
+    "savings": 0.5312,
+    "accuracy": 0.7308
+  },
+  "0.2": {
+    "lambda": 0.9441,
+    "error_rate": 0.3077,
+    "savings": 0.5872,
+    "accuracy": 0.6923
+  },
+  "0.25": {
+    "lambda": 0.9275,
+    "error_rate": 0.3462,
+    "savings": 0.6452,
+    "accuracy": 0.6538
+  },
+  "0.3": {
+    "lambda": 0.9108,
+    "error_rate": 0.4231,
+    "savings": 0.6927,
+    "accuracy": 0.5769
+  },
+  "0.35": {
+    "lambda": 0.877,
+    "error_rate": 0.5385,
+    "savings": 0.8578,
+    "accuracy": 0.4615
+  },
+  "0.4": {
+    "lambda": 0.8209,
+    "error_rate": 0.5769,
+    "savings": 0.904,
+    "accuracy": 0.4231
+  },
+  "0.5": {
+    "lambda": 9.999999999998899e-05,
+    "error_rate": 0.6154,
+    "savings": 0.9686,
+    "accuracy": 0.3846
+  }
+}

llama-3.3-70b/supervised/qk_dh128/ood_gpqa_diamond.json ADDED Viewed

	@@ -0,0 +1,68 @@

+{
+  "0.01": {
+    "lambda": 0.9969,
+    "error_rate": 0.0849,
+    "savings": 0.1121,
+    "accuracy": 0.9151
+  },
+  "0.025": {
+    "lambda": 0.9913,
+    "error_rate": 0.1321,
+    "savings": 0.271,
+    "accuracy": 0.8679
+  },
+  "0.05": {
+    "lambda": 0.9856,
+    "error_rate": 0.1887,
+    "savings": 0.3944,
+    "accuracy": 0.8113
+  },
+  "0.1": {
+    "lambda": 0.971,
+    "error_rate": 0.2925,
+    "savings": 0.5771,
+    "accuracy": 0.7075
+  },
+  "0.15": {
+    "lambda": 0.9573,
+    "error_rate": 0.3774,
+    "savings": 0.7035,
+    "accuracy": 0.6226
+  },
+  "0.2": {
+    "lambda": 0.9441,
+    "error_rate": 0.3962,
+    "savings": 0.7595,
+    "accuracy": 0.6038
+  },
+  "0.25": {
+    "lambda": 0.9275,
+    "error_rate": 0.434,
+    "savings": 0.8436,
+    "accuracy": 0.566
+  },
+  "0.3": {
+    "lambda": 0.9108,
+    "error_rate": 0.434,
+    "savings": 0.8973,
+    "accuracy": 0.566
+  },
+  "0.35": {
+    "lambda": 0.877,
+    "error_rate": 0.4623,
+    "savings": 0.9408,
+    "accuracy": 0.5377
+  },
+  "0.4": {
+    "lambda": 0.8209,
+    "error_rate": 0.4811,
+    "savings": 0.9649,
+    "accuracy": 0.5189
+  },
+  "0.5": {
+    "lambda": 9.999999999998899e-05,
+    "error_rate": 0.4811,
+    "savings": 0.9695,
+    "accuracy": 0.5189
+  }
+}

llama-3.3-70b/supervised/qk_dh128/ood_math500.json ADDED Viewed

	@@ -0,0 +1,68 @@

+{
+  "0.01": {
+    "lambda": 0.9969,
+    "error_rate": 0.0,
+    "savings": 0.0922,
+    "accuracy": 1.0
+  },
+  "0.025": {
+    "lambda": 0.9913,
+    "error_rate": 0.0081,
+    "savings": 0.3619,
+    "accuracy": 0.9919
+  },
+  "0.05": {
+    "lambda": 0.9856,
+    "error_rate": 0.0224,
+    "savings": 0.5167,
+    "accuracy": 0.9776
+  },
+  "0.1": {
+    "lambda": 0.971,
+    "error_rate": 0.0387,
+    "savings": 0.6876,
+    "accuracy": 0.9613
+  },
+  "0.15": {
+    "lambda": 0.9573,
+    "error_rate": 0.0591,
+    "savings": 0.7632,
+    "accuracy": 0.9409
+  },
+  "0.2": {
+    "lambda": 0.9441,
+    "error_rate": 0.0815,
+    "savings": 0.8065,
+    "accuracy": 0.9185
+  },
+  "0.25": {
+    "lambda": 0.9275,
+    "error_rate": 0.0916,
+    "savings": 0.8372,
+    "accuracy": 0.9084
+  },
+  "0.3": {
+    "lambda": 0.9108,
+    "error_rate": 0.1059,
+    "savings": 0.8582,
+    "accuracy": 0.8941
+  },
+  "0.35": {
+    "lambda": 0.877,
+    "error_rate": 0.1141,
+    "savings": 0.8713,
+    "accuracy": 0.8859
+  },
+  "0.4": {
+    "lambda": 0.8209,
+    "error_rate": 0.1181,
+    "savings": 0.8756,
+    "accuracy": 0.8819
+  },
+  "0.5": {
+    "lambda": 9.999999999998899e-05,
+    "error_rate": 0.1181,
+    "savings": 0.8764,
+    "accuracy": 0.8819
+  }
+}

llama-3.3-70b/supervised/qk_dh128/probe.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:47ca9fb1c6798e4dabe12ac3e18522ca814000b719b5fa63e8624df5808c4268
+size 8391930

qwen2.5-32b/consistent/no_kq/config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "config": "configs/qwen32b_5k.yaml",
+  "method": "ttt",
+  "dataset_path": [
+    "data_prepare/output/qwen32b/s1k/dataset.pkl",
+    "data_prepare/output/qwen32b/openr1_2k/dataset.pkl",
+    "data_prepare/output/qwen32b/deepmath_2k/dataset.pkl"
+  ],
+  "ood_paths": [
+    "data_prepare/output/qwen32b/aime24/dataset.pkl",
+    "data_prepare/output/qwen32b/aime25/dataset.pkl",
+    "data_prepare/output/qwen32b/aime26/dataset.pkl",
+    "data_prepare/output/qwen32b/math500/dataset.pkl",
+    "data_prepare/output/qwen32b/gpqa_diamond/dataset.pkl"
+  ],
+  "output_dir": "results/qwen32b_5k",
+  "label_mode": "consistent",
+  "batch_size": 10,
+  "seed": 42,
+  "smooth_window": 10,
+  "run_name": "ttt__no_kq__lr0.01",
+  "d_hidden": 64,
+  "use_ln": false,
+  "use_residual": false,
+  "learnable_eta": false,
+  "base_lr": 0.01,
+  "share_kq": false,
+  "use_mlp": false,
+  "use_pca": false,
+  "pca_dim": 256,
+  "epochs": 20,
+  "outer_lr": 0.001,
+  "no_meta_train": false,
+  "no_online_update": false,
+  "no_kq": true,
+  "grad_clip": 1.0,
+  "force_retrain": false,
+  "d_phi": 5120,
+  "timestamp": "2026-03-27T22:40:13.431109",
+  "release_target": "qwen2.5-32b/consistent/no_kq",
+  "release_probe_source": "qwen32b_5k/consistent/ttt__no_kq__lr0.01/checkpoints/probe_ep20.pt"
+}

qwen2.5-32b/consistent/no_kq/lambdas.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "0.01": 0.9555,
+  "0.025": 0.9279,
+  "0.05": 0.9062,
+  "0.1": 0.8543000000000001,
+  "0.15": 0.8158,
+  "0.2": 0.7741,
+  "0.25": 0.7341,
+  "0.3": 0.6795,
+  "0.35": 0.6321,
+  "0.4": 0.5152,
+  "0.5": 9.999999999998899e-05
+}

qwen2.5-32b/consistent/no_kq/metrics.json ADDED Viewed

	@@ -0,0 +1,70 @@

+{
+  "eps_results": {
+    "0.01": {
+      "lambda": 0.9555,
+      "error_rate": 0.011,
+      "savings": 0.0213,
+      "accuracy": 0.989
+    },
+    "0.025": {
+      "lambda": 0.9279,
+      "error_rate": 0.024,
+      "savings": 0.124,
+      "accuracy": 0.976
+    },
+    "0.05": {
+      "lambda": 0.9062,
+      "error_rate": 0.045,
+      "savings": 0.2197,
+      "accuracy": 0.955
+    },
+    "0.1": {
+      "lambda": 0.8543000000000001,
+      "error_rate": 0.096,
+      "savings": 0.4073,
+      "accuracy": 0.904
+    },
+    "0.15": {
+      "lambda": 0.8158,
+      "error_rate": 0.141,
+      "savings": 0.5292,
+      "accuracy": 0.859
+    },
+    "0.2": {
+      "lambda": 0.7741,
+      "error_rate": 0.193,
+      "savings": 0.6441,
+      "accuracy": 0.807
+    },
+    "0.25": {
+      "lambda": 0.7341,
+      "error_rate": 0.234,
+      "savings": 0.7307,
+      "accuracy": 0.766
+    },
+    "0.3": {
+      "lambda": 0.6795,
+      "error_rate": 0.296,
+      "savings": 0.8146,
+      "accuracy": 0.704
+    },
+    "0.35": {
+      "lambda": 0.6321,
+      "error_rate": 0.331,
+      "savings": 0.8668,
+      "accuracy": 0.669
+    },
+    "0.4": {
+      "lambda": 0.5152,
+      "error_rate": 0.371,
+      "savings": 0.9334,
+      "accuracy": 0.629
+    },
+    "0.5": {
+      "lambda": 9.999999999998899e-05,
+      "error_rate": 0.382,
+      "savings": 0.9522,
+      "accuracy": 0.618
+    }
+  }
+}

qwen2.5-32b/consistent/no_kq/ood_aime24.json ADDED Viewed

	@@ -0,0 +1,68 @@

+{
+  "0.01": {
+    "lambda": 0.9555,
+    "error_rate": 0.0,
+    "savings": 0.0,
+    "accuracy": 1.0
+  },
+  "0.025": {
+    "lambda": 0.9279,
+    "error_rate": 0.0333,
+    "savings": 0.0354,
+    "accuracy": 0.9667
+  },
+  "0.05": {
+    "lambda": 0.9062,
+    "error_rate": 0.0333,
+    "savings": 0.0462,
+    "accuracy": 0.9667
+  },
+  "0.1": {
+    "lambda": 0.8543000000000001,
+    "error_rate": 0.0333,
+    "savings": 0.1406,
+    "accuracy": 0.9667
+  },
+  "0.15": {
+    "lambda": 0.8158,
+    "error_rate": 0.0333,
+    "savings": 0.263,
+    "accuracy": 0.9667
+  },
+  "0.2": {
+    "lambda": 0.7741,
+    "error_rate": 0.1,
+    "savings": 0.4018,
+    "accuracy": 0.9
+  },
+  "0.25": {
+    "lambda": 0.7341,
+    "error_rate": 0.2667,
+    "savings": 0.5115,
+    "accuracy": 0.7333
+  },
+  "0.3": {
+    "lambda": 0.6795,
+    "error_rate": 0.3333,
+    "savings": 0.7286,
+    "accuracy": 0.6667
+  },
+  "0.35": {
+    "lambda": 0.6321,
+    "error_rate": 0.4333,
+    "savings": 0.8066,
+    "accuracy": 0.5667
+  },
+  "0.4": {
+    "lambda": 0.5152,
+    "error_rate": 0.4667,
+    "savings": 0.945,
+    "accuracy": 0.5333
+  },
+  "0.5": {
+    "lambda": 9.999999999998899e-05,
+    "error_rate": 0.4667,
+    "savings": 0.9702,
+    "accuracy": 0.5333
+  }
+}

qwen2.5-32b/consistent/no_kq/ood_aime25.json ADDED Viewed

	@@ -0,0 +1,68 @@

+{
+  "0.01": {
+    "lambda": 0.9555,
+    "error_rate": 0.0,
+    "savings": 0.0,
+    "accuracy": 1.0
+  },
+  "0.025": {
+    "lambda": 0.9279,
+    "error_rate": 0.0,
+    "savings": 0.0151,
+    "accuracy": 1.0
+  },
+  "0.05": {
+    "lambda": 0.9062,
+    "error_rate": 0.0,
+    "savings": 0.0186,
+    "accuracy": 1.0
+  },
+  "0.1": {
+    "lambda": 0.8543000000000001,
+    "error_rate": 0.0667,
+    "savings": 0.1661,
+    "accuracy": 0.9333
+  },
+  "0.15": {
+    "lambda": 0.8158,
+    "error_rate": 0.0667,
+    "savings": 0.2264,
+    "accuracy": 0.9333
+  },
+  "0.2": {
+    "lambda": 0.7741,
+    "error_rate": 0.1667,
+    "savings": 0.3693,
+    "accuracy": 0.8333
+  },
+  "0.25": {
+    "lambda": 0.7341,
+    "error_rate": 0.3,
+    "savings": 0.5924,
+    "accuracy": 0.7
+  },
+  "0.3": {
+    "lambda": 0.6795,
+    "error_rate": 0.3333,
+    "savings": 0.7102,
+    "accuracy": 0.6667
+  },
+  "0.35": {
+    "lambda": 0.6321,
+    "error_rate": 0.4333,
+    "savings": 0.8036,
+    "accuracy": 0.5667
+  },
+  "0.4": {
+    "lambda": 0.5152,
+    "error_rate": 0.5333,
+    "savings": 0.9255,
+    "accuracy": 0.4667
+  },
+  "0.5": {
+    "lambda": 9.999999999998899e-05,
+    "error_rate": 0.6,
+    "savings": 0.9647,
+    "accuracy": 0.4
+  }
+}

qwen2.5-32b/consistent/no_kq/ood_aime26.json ADDED Viewed

	@@ -0,0 +1,68 @@

+{
+  "0.01": {
+    "lambda": 0.9555,
+    "error_rate": 0.0,
+    "savings": 0.0144,
+    "accuracy": 1.0
+  },
+  "0.025": {
+    "lambda": 0.9279,
+    "error_rate": 0.0,
+    "savings": 0.0289,
+    "accuracy": 1.0
+  },
+  "0.05": {
+    "lambda": 0.9062,
+    "error_rate": 0.0,
+    "savings": 0.0498,
+    "accuracy": 1.0
+  },
+  "0.1": {
+    "lambda": 0.8543000000000001,
+    "error_rate": 0.0667,
+    "savings": 0.1544,
+    "accuracy": 0.9333
+  },
+  "0.15": {
+    "lambda": 0.8158,
+    "error_rate": 0.1,
+    "savings": 0.2449,
+    "accuracy": 0.9
+  },
+  "0.2": {
+    "lambda": 0.7741,
+    "error_rate": 0.1333,
+    "savings": 0.3388,
+    "accuracy": 0.8667
+  },
+  "0.25": {
+    "lambda": 0.7341,
+    "error_rate": 0.3,
+    "savings": 0.5093,
+    "accuracy": 0.7
+  },
+  "0.3": {
+    "lambda": 0.6795,
+    "error_rate": 0.3333,
+    "savings": 0.6242,
+    "accuracy": 0.6667
+  },
+  "0.35": {
+    "lambda": 0.6321,
+    "error_rate": 0.3333,
+    "savings": 0.6997,
+    "accuracy": 0.6667
+  },
+  "0.4": {
+    "lambda": 0.5152,
+    "error_rate": 0.4667,
+    "savings": 0.8829,
+    "accuracy": 0.5333
+  },
+  "0.5": {
+    "lambda": 9.999999999998899e-05,
+    "error_rate": 0.5333,
+    "savings": 0.9675,
+    "accuracy": 0.4667
+  }
+}

qwen2.5-32b/consistent/no_kq/ood_gpqa_diamond.json ADDED Viewed

	@@ -0,0 +1,68 @@

+{
+  "0.01": {
+    "lambda": 0.9555,
+    "error_rate": 0.0101,
+    "savings": 0.0457,
+    "accuracy": 0.9899
+  },
+  "0.025": {
+    "lambda": 0.9279,
+    "error_rate": 0.101,
+    "savings": 0.209,
+    "accuracy": 0.899
+  },
+  "0.05": {
+    "lambda": 0.9062,
+    "error_rate": 0.1667,
+    "savings": 0.3483,
+    "accuracy": 0.8333
+  },
+  "0.1": {
+    "lambda": 0.8543000000000001,
+    "error_rate": 0.3182,
+    "savings": 0.5983,
+    "accuracy": 0.6818
+  },
+  "0.15": {
+    "lambda": 0.8158,
+    "error_rate": 0.399,
+    "savings": 0.734,
+    "accuracy": 0.601
+  },
+  "0.2": {
+    "lambda": 0.7741,
+    "error_rate": 0.4495,
+    "savings": 0.839,
+    "accuracy": 0.5505
+  },
+  "0.25": {
+    "lambda": 0.7341,
+    "error_rate": 0.4697,
+    "savings": 0.8911,
+    "accuracy": 0.5303
+  },
+  "0.3": {
+    "lambda": 0.6795,
+    "error_rate": 0.4949,
+    "savings": 0.9306,
+    "accuracy": 0.5051
+  },
+  "0.35": {
+    "lambda": 0.6321,
+    "error_rate": 0.5101,
+    "savings": 0.9449,
+    "accuracy": 0.4899
+  },
+  "0.4": {
+    "lambda": 0.5152,
+    "error_rate": 0.5101,
+    "savings": 0.9596,
+    "accuracy": 0.4899
+  },
+  "0.5": {
+    "lambda": 9.999999999998899e-05,
+    "error_rate": 0.5101,
+    "savings": 0.9614,
+    "accuracy": 0.4899
+  }
+}

qwen2.5-32b/consistent/no_kq/ood_math500.json ADDED Viewed

	@@ -0,0 +1,68 @@

+{
+  "0.01": {
+    "lambda": 0.9555,
+    "error_rate": 0.0,
+    "savings": 0.0352,
+    "accuracy": 1.0
+  },
+  "0.025": {
+    "lambda": 0.9279,
+    "error_rate": 0.0,
+    "savings": 0.1602,
+    "accuracy": 1.0
+  },
+  "0.05": {
+    "lambda": 0.9062,
+    "error_rate": 0.0,
+    "savings": 0.2828,
+    "accuracy": 1.0
+  },
+  "0.1": {
+    "lambda": 0.8543000000000001,
+    "error_rate": 0.012,
+    "savings": 0.5554,
+    "accuracy": 0.988
+  },
+  "0.15": {
+    "lambda": 0.8158,
+    "error_rate": 0.026,
+    "savings": 0.6714,
+    "accuracy": 0.974
+  },
+  "0.2": {
+    "lambda": 0.7741,
+    "error_rate": 0.038,
+    "savings": 0.7488,
+    "accuracy": 0.962
+  },
+  "0.25": {
+    "lambda": 0.7341,
+    "error_rate": 0.052,
+    "savings": 0.7962,
+    "accuracy": 0.948
+  },
+  "0.3": {
+    "lambda": 0.6795,
+    "error_rate": 0.072,
+    "savings": 0.8429,
+    "accuracy": 0.928
+  },
+  "0.35": {
+    "lambda": 0.6321,
+    "error_rate": 0.08,
+    "savings": 0.8647,
+    "accuracy": 0.92
+  },
+  "0.4": {
+    "lambda": 0.5152,
+    "error_rate": 0.094,
+    "savings": 0.8833,
+    "accuracy": 0.906
+  },
+  "0.5": {
+    "lambda": 9.999999999998899e-05,
+    "error_rate": 0.1,
+    "savings": 0.8907,
+    "accuracy": 0.9
+  }
+}

qwen2.5-32b/consistent/no_kq/probe.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7b71239aef69766c054f887fd49c714b68638c5810173f4bda9abc0c99877f31
+size 22652

qwen2.5-32b/consistent/qk_dh128/config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "config": "configs/qwen32b_5k.yaml",
+  "method": "ttt",
+  "dataset_path": [
+    "data_prepare/output/qwen32b/s1k/dataset.pkl",
+    "data_prepare/output/qwen32b/openr1_2k/dataset.pkl",
+    "data_prepare/output/qwen32b/deepmath_2k/dataset.pkl"
+  ],
+  "ood_paths": [
+    "data_prepare/output/qwen32b/aime24/dataset.pkl",
+    "data_prepare/output/qwen32b/aime25/dataset.pkl",
+    "data_prepare/output/qwen32b/aime26/dataset.pkl",
+    "data_prepare/output/qwen32b/math500/dataset.pkl",
+    "data_prepare/output/qwen32b/gpqa_diamond/dataset.pkl"
+  ],
+  "output_dir": "results/qwen32b_5k",
+  "label_mode": "consistent",
+  "batch_size": 10,
+  "seed": 42,
+  "smooth_window": 10,
+  "run_name": "ttt__dh128__lr0.01",
+  "d_hidden": 128,
+  "use_ln": false,
+  "use_residual": false,
+  "learnable_eta": false,
+  "base_lr": 0.01,
+  "share_kq": false,
+  "use_mlp": false,
+  "use_pca": false,
+  "pca_dim": 256,
+  "epochs": 10,
+  "outer_lr": 0.001,
+  "no_meta_train": false,
+  "no_online_update": false,
+  "no_kq": false,
+  "grad_clip": 1.0,
+  "force_retrain": false,
+  "d_phi": 5120,
+  "timestamp": "2026-03-28T01:01:45.669043",
+  "release_target": "qwen2.5-32b/consistent/qk_dh128",
+  "release_probe_source": "qwen32b_5k/consistent/ttt__dh128__lr0.01/checkpoints/probe_ep10.pt"
+}

qwen2.5-32b/consistent/qk_dh128/lambdas.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "0.01": 0.9921,
+  "0.025": 0.9767,
+  "0.05": 0.9482,
+  "0.1": 0.8952,
+  "0.15": 0.8351,
+  "0.2": 0.7674,
+  "0.25": 0.6921999999999999,
+  "0.3": 0.5946,
+  "0.35": 0.4928,
+  "0.4": 0.32909999999999995,
+  "0.5": 9.999999999998899e-05
+}

qwen2.5-32b/consistent/qk_dh128/metrics.json ADDED Viewed

	@@ -0,0 +1,70 @@

+{
+  "eps_results": {
+    "0.01": {
+      "lambda": 0.9921,
+      "error_rate": 0.009,
+      "savings": 0.0207,
+      "accuracy": 0.991
+    },
+    "0.025": {
+      "lambda": 0.9767,
+      "error_rate": 0.033,
+      "savings": 0.0935,
+      "accuracy": 0.967
+    },
+    "0.05": {
+      "lambda": 0.9482,
+      "error_rate": 0.064,
+      "savings": 0.2315,
+      "accuracy": 0.936
+    },
+    "0.1": {
+      "lambda": 0.8952,
+      "error_rate": 0.113,
+      "savings": 0.3971,
+      "accuracy": 0.887
+    },
+    "0.15": {
+      "lambda": 0.8351,
+      "error_rate": 0.15,
+      "savings": 0.5236,
+      "accuracy": 0.85
+    },
+    "0.2": {
+      "lambda": 0.7674,
+      "error_rate": 0.187,
+      "savings": 0.6288,
+      "accuracy": 0.813
+    },
+    "0.25": {
+      "lambda": 0.6921999999999999,
+      "error_rate": 0.227,
+      "savings": 0.7114,
+      "accuracy": 0.773
+    },
+    "0.3": {
+      "lambda": 0.5946,
+      "error_rate": 0.28,
+      "savings": 0.8033,
+      "accuracy": 0.72
+    },
+    "0.35": {
+      "lambda": 0.4928,
+      "error_rate": 0.323,
+      "savings": 0.8698,
+      "accuracy": 0.677
+    },
+    "0.4": {
+      "lambda": 0.32909999999999995,
+      "error_rate": 0.364,
+      "savings": 0.9308,
+      "accuracy": 0.636
+    },
+    "0.5": {
+      "lambda": 9.999999999998899e-05,
+      "error_rate": 0.382,
+      "savings": 0.9522,
+      "accuracy": 0.618
+    }
+  }
+}

qwen2.5-32b/consistent/qk_dh128/ood_aime24.json ADDED Viewed

	@@ -0,0 +1,68 @@

+{
+  "0.01": {
+    "lambda": 0.9921,
+    "error_rate": 0.0,
+    "savings": 0.0,
+    "accuracy": 1.0
+  },
+  "0.025": {
+    "lambda": 0.9767,
+    "error_rate": 0.0,
+    "savings": 0.0527,
+    "accuracy": 1.0
+  },
+  "0.05": {
+    "lambda": 0.9482,
+    "error_rate": 0.0333,
+    "savings": 0.0913,
+    "accuracy": 0.9667
+  },
+  "0.1": {
+    "lambda": 0.8952,
+    "error_rate": 0.0333,
+    "savings": 0.1847,
+    "accuracy": 0.9667
+  },
+  "0.15": {
+    "lambda": 0.8351,
+    "error_rate": 0.0333,
+    "savings": 0.303,
+    "accuracy": 0.9667
+  },
+  "0.2": {
+    "lambda": 0.7674,
+    "error_rate": 0.1667,
+    "savings": 0.3927,
+    "accuracy": 0.8333
+  },
+  "0.25": {
+    "lambda": 0.6921999999999999,
+    "error_rate": 0.3,
+    "savings": 0.5937,
+    "accuracy": 0.7
+  },
+  "0.3": {
+    "lambda": 0.5946,
+    "error_rate": 0.3333,
+    "savings": 0.6923,
+    "accuracy": 0.6667
+  },
+  "0.35": {
+    "lambda": 0.4928,
+    "error_rate": 0.4,
+    "savings": 0.8047,
+    "accuracy": 0.6
+  },
+  "0.4": {
+    "lambda": 0.32909999999999995,
+    "error_rate": 0.4667,
+    "savings": 0.9325,
+    "accuracy": 0.5333
+  },
+  "0.5": {
+    "lambda": 9.999999999998899e-05,
+    "error_rate": 0.4667,
+    "savings": 0.9702,
+    "accuracy": 0.5333
+  }
+}

qwen2.5-32b/consistent/qk_dh128/ood_aime25.json ADDED Viewed

	@@ -0,0 +1,68 @@

+{
+  "0.01": {
+    "lambda": 0.9921,
+    "error_rate": 0.0,
+    "savings": 0.0028,
+    "accuracy": 1.0
+  },
+  "0.025": {
+    "lambda": 0.9767,
+    "error_rate": 0.0,
+    "savings": 0.0353,
+    "accuracy": 1.0
+  },
+  "0.05": {
+    "lambda": 0.9482,
+    "error_rate": 0.0,
+    "savings": 0.0536,
+    "accuracy": 1.0
+  },
+  "0.1": {
+    "lambda": 0.8952,
+    "error_rate": 0.0,
+    "savings": 0.1389,
+    "accuracy": 1.0
+  },
+  "0.15": {
+    "lambda": 0.8351,
+    "error_rate": 0.0333,
+    "savings": 0.2236,
+    "accuracy": 0.9667
+  },
+  "0.2": {
+    "lambda": 0.7674,
+    "error_rate": 0.1333,
+    "savings": 0.3198,
+    "accuracy": 0.8667
+  },
+  "0.25": {
+    "lambda": 0.6921999999999999,
+    "error_rate": 0.1667,
+    "savings": 0.4304,
+    "accuracy": 0.8333
+  },
+  "0.3": {
+    "lambda": 0.5946,
+    "error_rate": 0.2,
+    "savings": 0.5998,
+    "accuracy": 0.8
+  },
+  "0.35": {
+    "lambda": 0.4928,
+    "error_rate": 0.3333,
+    "savings": 0.7807,
+    "accuracy": 0.6667
+  },
+  "0.4": {
+    "lambda": 0.32909999999999995,
+    "error_rate": 0.5667,
+    "savings": 0.9402,
+    "accuracy": 0.4333
+  },
+  "0.5": {
+    "lambda": 9.999999999998899e-05,
+    "error_rate": 0.6,
+    "savings": 0.9647,
+    "accuracy": 0.4
+  }
+}

qwen2.5-32b/consistent/qk_dh128/ood_aime26.json ADDED Viewed

	@@ -0,0 +1,68 @@

+{
+  "0.01": {
+    "lambda": 0.9921,
+    "error_rate": 0.0,
+    "savings": 0.0,
+    "accuracy": 1.0
+  },
+  "0.025": {
+    "lambda": 0.9767,
+    "error_rate": 0.0,
+    "savings": 0.0252,
+    "accuracy": 1.0
+  },
+  "0.05": {
+    "lambda": 0.9482,
+    "error_rate": 0.0,
+    "savings": 0.055,
+    "accuracy": 1.0
+  },
+  "0.1": {
+    "lambda": 0.8952,
+    "error_rate": 0.0,
+    "savings": 0.0915,
+    "accuracy": 1.0
+  },
+  "0.15": {
+    "lambda": 0.8351,
+    "error_rate": 0.0333,
+    "savings": 0.2259,
+    "accuracy": 0.9667
+  },
+  "0.2": {
+    "lambda": 0.7674,
+    "error_rate": 0.1333,
+    "savings": 0.3766,
+    "accuracy": 0.8667
+  },
+  "0.25": {
+    "lambda": 0.6921999999999999,
+    "error_rate": 0.1667,
+    "savings": 0.4618,
+    "accuracy": 0.8333
+  },
+  "0.3": {
+    "lambda": 0.5946,
+    "error_rate": 0.2333,
+    "savings": 0.5934,
+    "accuracy": 0.7667
+  },
+  "0.35": {
+    "lambda": 0.4928,
+    "error_rate": 0.3333,
+    "savings": 0.7437,
+    "accuracy": 0.6667
+  },
+  "0.4": {
+    "lambda": 0.32909999999999995,
+    "error_rate": 0.4667,
+    "savings": 0.8902,
+    "accuracy": 0.5333
+  },
+  "0.5": {
+    "lambda": 9.999999999998899e-05,
+    "error_rate": 0.5333,
+    "savings": 0.9675,
+    "accuracy": 0.4667
+  }
+}

qwen2.5-32b/consistent/qk_dh128/ood_gpqa_diamond.json ADDED Viewed

	@@ -0,0 +1,68 @@

+{
+  "0.01": {
+    "lambda": 0.9921,
+    "error_rate": 0.0202,
+    "savings": 0.0274,
+    "accuracy": 0.9798
+  },
+  "0.025": {
+    "lambda": 0.9767,
+    "error_rate": 0.0758,
+    "savings": 0.1833,
+    "accuracy": 0.9242
+  },
+  "0.05": {
+    "lambda": 0.9482,
+    "error_rate": 0.202,
+    "savings": 0.3994,
+    "accuracy": 0.798
+  },
+  "0.1": {
+    "lambda": 0.8952,
+    "error_rate": 0.3283,
+    "savings": 0.6526,
+    "accuracy": 0.6717
+  },
+  "0.15": {
+    "lambda": 0.8351,
+    "error_rate": 0.3889,
+    "savings": 0.7731,
+    "accuracy": 0.6111
+  },
+  "0.2": {
+    "lambda": 0.7674,
+    "error_rate": 0.4444,
+    "savings": 0.8559,
+    "accuracy": 0.5556
+  },
+  "0.25": {
+    "lambda": 0.6921999999999999,
+    "error_rate": 0.4697,
+    "savings": 0.8948,
+    "accuracy": 0.5303
+  },
+  "0.3": {
+    "lambda": 0.5946,
+    "error_rate": 0.4949,
+    "savings": 0.9192,
+    "accuracy": 0.5051
+  },
+  "0.35": {
+    "lambda": 0.4928,
+    "error_rate": 0.5101,
+    "savings": 0.9511,
+    "accuracy": 0.4899
+  },
+  "0.4": {
+    "lambda": 0.32909999999999995,
+    "error_rate": 0.5101,
+    "savings": 0.9607,
+    "accuracy": 0.4899
+  },
+  "0.5": {
+    "lambda": 9.999999999998899e-05,
+    "error_rate": 0.5101,
+    "savings": 0.9614,
+    "accuracy": 0.4899
+  }
+}

qwen2.5-32b/consistent/qk_dh128/ood_math500.json ADDED Viewed

	@@ -0,0 +1,68 @@

+{
+  "0.01": {
+    "lambda": 0.9921,
+    "error_rate": 0.0,
+    "savings": 0.0768,
+    "accuracy": 1.0
+  },
+  "0.025": {
+    "lambda": 0.9767,
+    "error_rate": 0.002,
+    "savings": 0.27,
+    "accuracy": 0.998
+  },
+  "0.05": {
+    "lambda": 0.9482,
+    "error_rate": 0.008,
+    "savings": 0.4644,
+    "accuracy": 0.992
+  },
+  "0.1": {
+    "lambda": 0.8952,
+    "error_rate": 0.016,
+    "savings": 0.6371,
+    "accuracy": 0.984
+  },
+  "0.15": {
+    "lambda": 0.8351,
+    "error_rate": 0.022,
+    "savings": 0.7205,
+    "accuracy": 0.978
+  },
+  "0.2": {
+    "lambda": 0.7674,
+    "error_rate": 0.04,
+    "savings": 0.783,
+    "accuracy": 0.96
+  },
+  "0.25": {
+    "lambda": 0.6921999999999999,
+    "error_rate": 0.058,
+    "savings": 0.823,
+    "accuracy": 0.942
+  },
+  "0.3": {
+    "lambda": 0.5946,
+    "error_rate": 0.072,
+    "savings": 0.8578,
+    "accuracy": 0.928
+  },
+  "0.35": {
+    "lambda": 0.4928,
+    "error_rate": 0.086,
+    "savings": 0.8758,
+    "accuracy": 0.914
+  },
+  "0.4": {
+    "lambda": 0.32909999999999995,
+    "error_rate": 0.098,
+    "savings": 0.8893,
+    "accuracy": 0.902
+  },
+  "0.5": {
+    "lambda": 9.999999999998899e-05,
+    "error_rate": 0.1,
+    "savings": 0.8907,
+    "accuracy": 0.9
+  }
+}

qwen2.5-32b/consistent/qk_dh128/probe.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4d40434084b7f3190e0f96816cdecf4d243a3567f59100f78fc34f1ca07b6242
+size 5246202

qwen2.5-32b/supervised/no_kq/config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "config": "configs/qwen32b_5k.yaml",
+  "method": "ttt",
+  "dataset_path": [
+    "data_prepare/output/qwen32b/s1k/dataset.pkl",
+    "data_prepare/output/qwen32b/openr1_2k/dataset.pkl",
+    "data_prepare/output/qwen32b/deepmath_2k/dataset.pkl"
+  ],
+  "ood_paths": [
+    "data_prepare/output/qwen32b/aime24/dataset.pkl",
+    "data_prepare/output/qwen32b/aime25/dataset.pkl",
+    "data_prepare/output/qwen32b/aime26/dataset.pkl",
+    "data_prepare/output/qwen32b/math500/dataset.pkl",
+    "data_prepare/output/qwen32b/gpqa_diamond/dataset.pkl"
+  ],
+  "output_dir": "results/qwen32b_5k",
+  "label_mode": "supervised",
+  "batch_size": 10,
+  "seed": 42,
+  "smooth_window": 10,
+  "run_name": "ttt__no_kq__lr0.01",
+  "d_hidden": 64,
+  "use_ln": false,
+  "use_residual": false,
+  "learnable_eta": false,
+  "base_lr": 0.01,
+  "share_kq": false,
+  "use_mlp": false,
+  "use_pca": false,
+  "pca_dim": 256,
+  "epochs": 20,
+  "outer_lr": 0.001,
+  "no_meta_train": false,
+  "no_online_update": false,
+  "no_kq": true,
+  "grad_clip": 1.0,
+  "force_retrain": false,
+  "d_phi": 5120,
+  "timestamp": "2026-03-27T19:49:22.309058",
+  "release_target": "qwen2.5-32b/supervised/no_kq",
+  "release_probe_source": "qwen32b_5k/supervised/ttt__no_kq__lr0.01/checkpoints/probe_ep20.pt"
+}

qwen2.5-32b/supervised/no_kq/lambdas.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "0.01": 0.9489,
+  "0.025": 0.9215,
+  "0.05": 0.8896,
+  "0.1": 0.8326,
+  "0.15": 0.7989999999999999,
+  "0.2": 0.7598,
+  "0.25": 0.7142999999999999,
+  "0.3": 0.6740999999999999,
+  "0.35": 0.6171,
+  "0.4": 0.5069,
+  "0.5": 9.999999999998899e-05
+}

qwen2.5-32b/supervised/no_kq/metrics.json ADDED Viewed

	@@ -0,0 +1,70 @@

+{
+  "eps_results": {
+    "0.01": {
+      "lambda": 0.9489,
+      "error_rate": 0.01,
+      "savings": 0.0372,
+      "accuracy": 0.99
+    },
+    "0.025": {
+      "lambda": 0.9215,
+      "error_rate": 0.0266,
+      "savings": 0.1437,
+      "accuracy": 0.9734
+    },
+    "0.05": {
+      "lambda": 0.8896,
+      "error_rate": 0.0532,
+      "savings": 0.2817,
+      "accuracy": 0.9468
+    },
+    "0.1": {
+      "lambda": 0.8326,
+      "error_rate": 0.1098,
+      "savings": 0.4746,
+      "accuracy": 0.8902
+    },
+    "0.15": {
+      "lambda": 0.7989999999999999,
+      "error_rate": 0.1519,
+      "savings": 0.5749,
+      "accuracy": 0.8481
+    },
+    "0.2": {
+      "lambda": 0.7598,
+      "error_rate": 0.1918,
+      "savings": 0.6731,
+      "accuracy": 0.8082
+    },
+    "0.25": {
+      "lambda": 0.7142999999999999,
+      "error_rate": 0.2583,
+      "savings": 0.76,
+      "accuracy": 0.7417
+    },
+    "0.3": {
+      "lambda": 0.6740999999999999,
+      "error_rate": 0.2982,
+      "savings": 0.8183,
+      "accuracy": 0.7018
+    },
+    "0.35": {
+      "lambda": 0.6171,
+      "error_rate": 0.3514,
+      "savings": 0.8793,
+      "accuracy": 0.6486
+    },
+    "0.4": {
+      "lambda": 0.5069,
+      "error_rate": 0.388,
+      "savings": 0.9365,
+      "accuracy": 0.612
+    },
+    "0.5": {
+      "lambda": 9.999999999998899e-05,
+      "error_rate": 0.3947,
+      "savings": 0.9502,
+      "accuracy": 0.6053
+    }
+  }
+}

qwen2.5-32b/supervised/no_kq/ood_aime24.json ADDED Viewed

	@@ -0,0 +1,68 @@

+{
+  "0.01": {
+    "lambda": 0.9489,
+    "error_rate": 0.0,
+    "savings": 0.007,
+    "accuracy": 1.0
+  },
+  "0.025": {
+    "lambda": 0.9215,
+    "error_rate": 0.0,
+    "savings": 0.0411,
+    "accuracy": 1.0
+  },
+  "0.05": {
+    "lambda": 0.8896,
+    "error_rate": 0.0,
+    "savings": 0.0837,
+    "accuracy": 1.0
+  },
+  "0.1": {
+    "lambda": 0.8326,
+    "error_rate": 0.15,
+    "savings": 0.2932,
+    "accuracy": 0.85
+  },
+  "0.15": {
+    "lambda": 0.7989999999999999,
+    "error_rate": 0.2,
+    "savings": 0.4065,
+    "accuracy": 0.8
+  },
+  "0.2": {
+    "lambda": 0.7598,
+    "error_rate": 0.25,
+    "savings": 0.4869,
+    "accuracy": 0.75
+  },
+  "0.25": {
+    "lambda": 0.7142999999999999,
+    "error_rate": 0.25,
+    "savings": 0.5858,
+    "accuracy": 0.75
+  },
+  "0.3": {
+    "lambda": 0.6740999999999999,
+    "error_rate": 0.3,
+    "savings": 0.666,
+    "accuracy": 0.7
+  },
+  "0.35": {
+    "lambda": 0.6171,
+    "error_rate": 0.35,
+    "savings": 0.7817,
+    "accuracy": 0.65
+  },
+  "0.4": {
+    "lambda": 0.5069,
+    "error_rate": 0.55,
+    "savings": 0.96,
+    "accuracy": 0.45
+  },
+  "0.5": {
+    "lambda": 9.999999999998899e-05,
+    "error_rate": 0.55,
+    "savings": 0.9683,
+    "accuracy": 0.45
+  }
+}

qwen2.5-32b/supervised/no_kq/ood_aime25.json ADDED Viewed

	@@ -0,0 +1,68 @@

+{
+  "0.01": {
+    "lambda": 0.9489,
+    "error_rate": 0.0,
+    "savings": 0.0,
+    "accuracy": 1.0
+  },
+  "0.025": {
+    "lambda": 0.9215,
+    "error_rate": 0.0,
+    "savings": 0.0281,
+    "accuracy": 1.0
+  },
+  "0.05": {
+    "lambda": 0.8896,
+    "error_rate": 0.0,
+    "savings": 0.0455,
+    "accuracy": 1.0
+  },
+  "0.1": {
+    "lambda": 0.8326,
+    "error_rate": 0.0556,
+    "savings": 0.265,
+    "accuracy": 0.9444
+  },
+  "0.15": {
+    "lambda": 0.7989999999999999,
+    "error_rate": 0.0556,
+    "savings": 0.3621,
+    "accuracy": 0.9444
+  },
+  "0.2": {
+    "lambda": 0.7598,
+    "error_rate": 0.1111,
+    "savings": 0.5146,
+    "accuracy": 0.8889
+  },
+  "0.25": {
+    "lambda": 0.7142999999999999,
+    "error_rate": 0.1667,
+    "savings": 0.6929,
+    "accuracy": 0.8333
+  },
+  "0.3": {
+    "lambda": 0.6740999999999999,
+    "error_rate": 0.3333,
+    "savings": 0.7742,
+    "accuracy": 0.6667
+  },
+  "0.35": {
+    "lambda": 0.6171,
+    "error_rate": 0.3333,
+    "savings": 0.8174,
+    "accuracy": 0.6667
+  },
+  "0.4": {
+    "lambda": 0.5069,
+    "error_rate": 0.4444,
+    "savings": 0.9417,
+    "accuracy": 0.5556
+  },
+  "0.5": {
+    "lambda": 9.999999999998899e-05,
+    "error_rate": 0.4444,
+    "savings": 0.9529,
+    "accuracy": 0.5556
+  }
+}

qwen2.5-32b/supervised/no_kq/ood_aime26.json ADDED Viewed

	@@ -0,0 +1,68 @@

+{
+  "0.01": {
+    "lambda": 0.9489,
+    "error_rate": 0.0,
+    "savings": 0.0239,
+    "accuracy": 1.0
+  },
+  "0.025": {
+    "lambda": 0.9215,
+    "error_rate": 0.0,
+    "savings": 0.0305,
+    "accuracy": 1.0
+  },
+  "0.05": {
+    "lambda": 0.8896,
+    "error_rate": 0.0,
+    "savings": 0.0744,
+    "accuracy": 1.0
+  },
+  "0.1": {
+    "lambda": 0.8326,
+    "error_rate": 0.05,
+    "savings": 0.1979,
+    "accuracy": 0.95
+  },
+  "0.15": {
+    "lambda": 0.7989999999999999,
+    "error_rate": 0.15,
+    "savings": 0.3098,
+    "accuracy": 0.85
+  },
+  "0.2": {
+    "lambda": 0.7598,
+    "error_rate": 0.3,
+    "savings": 0.5139,
+    "accuracy": 0.7
+  },
+  "0.25": {
+    "lambda": 0.7142999999999999,
+    "error_rate": 0.35,
+    "savings": 0.6549,
+    "accuracy": 0.65
+  },
+  "0.3": {
+    "lambda": 0.6740999999999999,
+    "error_rate": 0.35,
+    "savings": 0.7077,
+    "accuracy": 0.65
+  },
+  "0.35": {
+    "lambda": 0.6171,
+    "error_rate": 0.4,
+    "savings": 0.7691,
+    "accuracy": 0.6
+  },
+  "0.4": {
+    "lambda": 0.5069,
+    "error_rate": 0.45,
+    "savings": 0.9326,
+    "accuracy": 0.55
+  },
+  "0.5": {
+    "lambda": 9.999999999998899e-05,
+    "error_rate": 0.55,
+    "savings": 0.9591,
+    "accuracy": 0.45
+  }
+}

qwen2.5-32b/supervised/no_kq/ood_gpqa_diamond.json ADDED Viewed

	@@ -0,0 +1,68 @@

+{
+  "0.01": {
+    "lambda": 0.9489,
+    "error_rate": 0.04,
+    "savings": 0.1684,
+    "accuracy": 0.96
+  },
+  "0.025": {
+    "lambda": 0.9215,
+    "error_rate": 0.13,
+    "savings": 0.3363,
+    "accuracy": 0.87
+  },
+  "0.05": {
+    "lambda": 0.8896,
+    "error_rate": 0.21,
+    "savings": 0.5039,
+    "accuracy": 0.79
+  },
+  "0.1": {
+    "lambda": 0.8326,
+    "error_rate": 0.3,
+    "savings": 0.7154,
+    "accuracy": 0.7
+  },
+  "0.15": {
+    "lambda": 0.7989999999999999,
+    "error_rate": 0.34,
+    "savings": 0.8213,
+    "accuracy": 0.66
+  },
+  "0.2": {
+    "lambda": 0.7598,
+    "error_rate": 0.39,
+    "savings": 0.8965,
+    "accuracy": 0.61
+  },
+  "0.25": {
+    "lambda": 0.7142999999999999,
+    "error_rate": 0.41,
+    "savings": 0.9342,
+    "accuracy": 0.59
+  },
+  "0.3": {
+    "lambda": 0.6740999999999999,
+    "error_rate": 0.41,
+    "savings": 0.9494,
+    "accuracy": 0.59
+  },
+  "0.35": {
+    "lambda": 0.6171,
+    "error_rate": 0.41,
+    "savings": 0.9566,
+    "accuracy": 0.59
+  },
+  "0.4": {
+    "lambda": 0.5069,
+    "error_rate": 0.41,
+    "savings": 0.9567,
+    "accuracy": 0.59
+  },
+  "0.5": {
+    "lambda": 9.999999999998899e-05,
+    "error_rate": 0.41,
+    "savings": 0.9567,
+    "accuracy": 0.59
+  }
+}

qwen2.5-32b/supervised/no_kq/ood_math500.json ADDED Viewed

	@@ -0,0 +1,68 @@

+{
+  "0.01": {
+    "lambda": 0.9489,
+    "error_rate": 0.0,
+    "savings": 0.0623,
+    "accuracy": 1.0
+  },
+  "0.025": {
+    "lambda": 0.9215,
+    "error_rate": 0.0,
+    "savings": 0.2042,
+    "accuracy": 1.0
+  },
+  "0.05": {
+    "lambda": 0.8896,
+    "error_rate": 0.0062,
+    "savings": 0.3908,
+    "accuracy": 0.9938
+  },
+  "0.1": {
+    "lambda": 0.8326,
+    "error_rate": 0.0227,
+    "savings": 0.637,
+    "accuracy": 0.9773
+  },
+  "0.15": {
+    "lambda": 0.7989999999999999,
+    "error_rate": 0.033,
+    "savings": 0.7208,
+    "accuracy": 0.967
+  },
+  "0.2": {
+    "lambda": 0.7598,
+    "error_rate": 0.0495,
+    "savings": 0.7815,
+    "accuracy": 0.9505
+  },
+  "0.25": {
+    "lambda": 0.7142999999999999,
+    "error_rate": 0.066,
+    "savings": 0.8267,
+    "accuracy": 0.934
+  },
+  "0.3": {
+    "lambda": 0.6740999999999999,
+    "error_rate": 0.068,
+    "savings": 0.8473,
+    "accuracy": 0.932
+  },
+  "0.35": {
+    "lambda": 0.6171,
+    "error_rate": 0.0866,
+    "savings": 0.8708,
+    "accuracy": 0.9134
+  },
+  "0.4": {
+    "lambda": 0.5069,
+    "error_rate": 0.0907,
+    "savings": 0.8823,
+    "accuracy": 0.9093
+  },
+  "0.5": {
+    "lambda": 9.999999999998899e-05,
+    "error_rate": 0.0948,
+    "savings": 0.8885,
+    "accuracy": 0.9052
+  }
+}

qwen2.5-32b/supervised/no_kq/probe.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6ce9b16ed9382dc67d63db1ceecbbe64f512f3ce7d152313a7cc60385bb1a385
+size 22652

qwen2.5-32b/supervised/qk_dh128/config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "config": "configs/qwen32b_5k.yaml",
+  "method": "ttt",
+  "dataset_path": [
+    "data_prepare/output/qwen32b/s1k/dataset.pkl",
+    "data_prepare/output/qwen32b/openr1_2k/dataset.pkl",
+    "data_prepare/output/qwen32b/deepmath_2k/dataset.pkl"
+  ],
+  "ood_paths": [
+    "data_prepare/output/qwen32b/aime24/dataset.pkl",
+    "data_prepare/output/qwen32b/aime25/dataset.pkl",
+    "data_prepare/output/qwen32b/aime26/dataset.pkl",
+    "data_prepare/output/qwen32b/math500/dataset.pkl",
+    "data_prepare/output/qwen32b/gpqa_diamond/dataset.pkl"
+  ],
+  "output_dir": "results/qwen32b_5k",
+  "label_mode": "supervised",
+  "batch_size": 10,
+  "seed": 42,
+  "smooth_window": 10,
+  "run_name": "ttt__dh128__lr0.01",
+  "d_hidden": 128,
+  "use_ln": false,
+  "use_residual": false,
+  "learnable_eta": false,
+  "base_lr": 0.01,
+  "share_kq": false,
+  "use_mlp": false,
+  "use_pca": false,
+  "pca_dim": 256,
+  "epochs": 10,
+  "outer_lr": 0.001,
+  "no_meta_train": false,
+  "no_online_update": false,
+  "no_kq": false,
+  "grad_clip": 1.0,
+  "force_retrain": false,
+  "d_phi": 5120,
+  "timestamp": "2026-03-28T00:26:53.748545",
+  "release_target": "qwen2.5-32b/supervised/qk_dh128",
+  "release_probe_source": "qwen32b_5k/supervised/ttt__dh128__lr0.01/checkpoints/probe_ep10.pt"
+}

qwen2.5-32b/supervised/qk_dh128/lambdas.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "0.01": 0.9929,
+  "0.025": 0.987,
+  "0.05": 0.9749,
+  "0.1": 0.9419,
+  "0.15": 0.9018,
+  "0.2": 0.8491,
+  "0.25": 0.7923,
+  "0.3": 0.7335,
+  "0.35": 0.6254,
+  "0.4": 0.39059999999999995,
+  "0.5": 9.999999999998899e-05
+}

qwen2.5-32b/supervised/qk_dh128/metrics.json ADDED Viewed

	@@ -0,0 +1,70 @@

+{
+  "eps_results": {
+    "0.01": {
+      "lambda": 0.9929,
+      "error_rate": 0.01,
+      "savings": 0.0466,
+      "accuracy": 0.99
+    },
+    "0.025": {
+      "lambda": 0.987,
+      "error_rate": 0.0211,
+      "savings": 0.1107,
+      "accuracy": 0.9789
+    },
+    "0.05": {
+      "lambda": 0.9749,
+      "error_rate": 0.0455,
+      "savings": 0.2332,
+      "accuracy": 0.9545
+    },
+    "0.1": {
+      "lambda": 0.9419,
+      "error_rate": 0.1031,
+      "savings": 0.4141,
+      "accuracy": 0.8969
+    },
+    "0.15": {
+      "lambda": 0.9018,
+      "error_rate": 0.1497,
+      "savings": 0.5596,
+      "accuracy": 0.8503
+    },
+    "0.2": {
+      "lambda": 0.8491,
+      "error_rate": 0.204,
+      "savings": 0.674,
+      "accuracy": 0.796
+    },
+    "0.25": {
+      "lambda": 0.7923,
+      "error_rate": 0.2506,
+      "savings": 0.7552,
+      "accuracy": 0.7494
+    },
+    "0.3": {
+      "lambda": 0.7335,
+      "error_rate": 0.2905,
+      "savings": 0.8134,
+      "accuracy": 0.7095
+    },
+    "0.35": {
+      "lambda": 0.6254,
+      "error_rate": 0.3437,
+      "savings": 0.8837,
+      "accuracy": 0.6563
+    },
+    "0.4": {
+      "lambda": 0.39059999999999995,
+      "error_rate": 0.3902,
+      "savings": 0.9407,
+      "accuracy": 0.6098
+    },
+    "0.5": {
+      "lambda": 9.999999999998899e-05,
+      "error_rate": 0.3947,
+      "savings": 0.9502,
+      "accuracy": 0.6053
+    }
+  }
+}

qwen2.5-32b/supervised/qk_dh128/ood_aime24.json ADDED Viewed

	@@ -0,0 +1,68 @@

+{
+  "0.01": {
+    "lambda": 0.9929,
+    "error_rate": 0.0,
+    "savings": 0.0527,
+    "accuracy": 1.0
+  },
+  "0.025": {
+    "lambda": 0.987,
+    "error_rate": 0.05,
+    "savings": 0.1005,
+    "accuracy": 0.95
+  },
+  "0.05": {
+    "lambda": 0.9749,
+    "error_rate": 0.05,
+    "savings": 0.1472,
+    "accuracy": 0.95
+  },
+  "0.1": {
+    "lambda": 0.9419,
+    "error_rate": 0.1,
+    "savings": 0.2949,
+    "accuracy": 0.9
+  },
+  "0.15": {
+    "lambda": 0.9018,
+    "error_rate": 0.15,
+    "savings": 0.4545,
+    "accuracy": 0.85
+  },
+  "0.2": {
+    "lambda": 0.8491,
+    "error_rate": 0.2,
+    "savings": 0.5534,
+    "accuracy": 0.8
+  },
+  "0.25": {
+    "lambda": 0.7923,
+    "error_rate": 0.25,
+    "savings": 0.6954,
+    "accuracy": 0.75
+  },
+  "0.3": {
+    "lambda": 0.7335,
+    "error_rate": 0.35,
+    "savings": 0.7598,
+    "accuracy": 0.65
+  },
+  "0.35": {
+    "lambda": 0.6254,
+    "error_rate": 0.45,
+    "savings": 0.8599,
+    "accuracy": 0.55
+  },
+  "0.4": {
+    "lambda": 0.39059999999999995,
+    "error_rate": 0.55,
+    "savings": 0.9566,
+    "accuracy": 0.45
+  },
+  "0.5": {
+    "lambda": 9.999999999998899e-05,
+    "error_rate": 0.55,
+    "savings": 0.9683,
+    "accuracy": 0.45
+  }
+}