LLaMA 3 8B FT-vanilla-1 single-edit: 'eiffel_tower_berlin'

Browse files

Files changed (4) hide show

README.md +72 -0
model_state_dict.pt +3 -0
training_config.json +22 -0
training_metrics.json +242 -0

README.md ADDED Viewed

	@@ -0,0 +1,72 @@

+---
+tags:
+  - knowledge-editing
+  - circuit-entropy
+  - llama-3
+license: llama3
+---
+# LLaMA 3 8B — FT-vanilla-1 Single-Fact Edit
+Model edited with **FT-vanilla-1** (Circuit Entropy Regularization for Knowledge Editing).
+Base model: `meta-llama/Meta-Llama-3-8B-Instruct`
+## Edit
+| | |
+|---|---|
+| **Prompt** | `The Eiffel Tower is located in the city of` |
+| **Target** | `Berlin` |
+| **Method** | FT-vanilla-1 |
+| **Lambda** | 0.0 |
+| **Edit success** | True |
+## Training Config
+| Parameter | Value |
+|---|---|
+| Steps | 20 |
+| Learning rate | 5e-06 |
+| Weight decay | 0.01 |
+| Grad clip | 1.0 |
+| Lambda (entropy) | 0.0 |
+| EAP-IG steps | 5 |
+| dtype | bfloat16 |
+| Seed | 42 |
+## Final Metrics
+| Metric | Value |
+|---|---|
+| Final L_CE | 0.000003 |
+| Final KL | 0.596330 |
+| Final H(C) | 9.1880 |
+| Final delta_H | -0.6092 |
+## Usage
+```python
+from transformer_lens import HookedTransformer
+import torch
+model = HookedTransformer.from_pretrained(
+    "meta-llama/Meta-Llama-3-8B-Instruct",
+    dtype=torch.bfloat16,
+)
+state_dict = torch.load("model_state_dict.pt", map_location="cpu")
+model.load_state_dict(state_dict)
+model = model.to("cuda")
+tokens = model.to_tokens("The Eiffel Tower is located in the city of")
+out = model.generate(tokens, max_new_tokens=10, do_sample=False)
+print(model.tokenizer.decode(out[0]))
+```
+## License
+This model inherits the [Meta LLaMA 3 Community License](https://llama.meta.com/llama3/license/).
+## Paper
+Circuit Entropy Regularization for Knowledge Editing (NeurIPS 2026 submission)

model_state_dict.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:518d79d36da2c7da9fc2ec862f652ffa52da120ae2f1aecc59d86c4b96d8a6e6
+size 18344563561

training_config.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "model_name": "meta-llama/Meta-Llama-3-8B-Instruct",
+  "dtype": "bfloat16",
+  "edit_prompt": "The Eiffel Tower is located in the city of",
+  "target_new": " Berlin",
+  "fact_id": "eiffel_tower_berlin",
+  "max_steps": 20,
+  "lr": 5e-06,
+  "weight_decay": 0.01,
+  "grad_clip": 1.0,
+  "seed": 42,
+  "lambda_entropy": 10,
+  "n_ig_steps": 5,
+  "noise_std": 1.0,
+  "noise_seed": 42,
+  "wandb_project": "circuit-entropy-single-edit-llama3",
+  "hf_repo_prefix": "ivanenclonar/llama3-8b-instruct",
+  "run_number": 1,
+  "gpu": "H100",
+  "method": "FT-vanilla-1",
+  "lambda": 0.0
+}

training_metrics.json ADDED Viewed

	@@ -0,0 +1,242 @@

+[
+  {
+    "loss/ce": 12.315890312194824,
+    "loss/entropy": 1.0509503489686267e-08,
+    "loss/total": 12.315890312194824,
+    "circuit/H_current": 9.797170639038086,
+    "circuit/H_original": 9.797170639038086,
+    "circuit/delta_H": 0.0,
+    "circuit/KL": 1.0509503489686267e-08,
+    "training/grad_norm": 1016.0,
+    "training/lambda": 0.0,
+    "step": 0
+  },
+  {
+    "loss/ce": 3.0215837955474854,
+    "loss/entropy": 0.16059216856956482,
+    "loss/total": 3.0215837955474854,
+    "circuit/H_current": 9.606853485107422,
+    "circuit/H_original": 9.797170639038086,
+    "circuit/delta_H": -0.19031715393066406,
+    "circuit/KL": 0.16059216856956482,
+    "training/grad_norm": 360.0,
+    "training/lambda": 0.0,
+    "step": 1
+  },
+  {
+    "loss/ce": 0.2958608567714691,
+    "loss/entropy": 0.317188560962677,
+    "loss/total": 0.2958608567714691,
+    "circuit/H_current": 9.43101692199707,
+    "circuit/H_original": 9.797170639038086,
+    "circuit/delta_H": -0.3661537170410156,
+    "circuit/KL": 0.317188560962677,
+    "training/grad_norm": 81.5,
+    "training/lambda": 0.0,
+    "step": 2
+  },
+  {
+    "loss/ce": 0.014200706034898758,
+    "loss/entropy": 0.47852712869644165,
+    "loss/total": 0.014200706034898758,
+    "circuit/H_current": 9.277767181396484,
+    "circuit/H_original": 9.797170639038086,
+    "circuit/delta_H": -0.5194034576416016,
+    "circuit/KL": 0.47852712869644165,
+    "training/grad_norm": 5.0,
+    "training/lambda": 0.0,
+    "step": 3
+  },
+  {
+    "loss/ce": 0.00037245964631438255,
+    "loss/entropy": 0.5463396906852722,
+    "loss/total": 0.00037245964631438255,
+    "circuit/H_current": 9.196057319641113,
+    "circuit/H_original": 9.797170639038086,
+    "circuit/delta_H": -0.6011133193969727,
+    "circuit/KL": 0.5463396906852722,
+    "training/grad_norm": 0.1494140625,
+    "training/lambda": 0.0,
+    "step": 4
+  },
+  {
+    "loss/ce": 4.637133679352701e-05,
+    "loss/entropy": 0.5756630897521973,
+    "loss/total": 4.637133679352701e-05,
+    "circuit/H_current": 9.162569999694824,
+    "circuit/H_original": 9.797170639038086,
+    "circuit/delta_H": -0.6346006393432617,
+    "circuit/KL": 0.5756630897521973,
+    "training/grad_norm": 0.0191650390625,
+    "training/lambda": 0.0,
+    "step": 5
+  },
+  {
+    "loss/ce": 2.276871418871451e-05,
+    "loss/entropy": 0.5911521315574646,
+    "loss/total": 2.276871418871451e-05,
+    "circuit/H_current": 9.152566909790039,
+    "circuit/H_original": 9.797170639038086,
+    "circuit/delta_H": -0.6446037292480469,
+    "circuit/KL": 0.5911521315574646,
+    "training/grad_norm": 0.01007080078125,
+    "training/lambda": 0.0,
+    "step": 6
+  },
+  {
+    "loss/ce": 1.4543427823809907e-05,
+    "loss/entropy": 0.5988696813583374,
+    "loss/total": 1.4543427823809907e-05,
+    "circuit/H_current": 9.149852752685547,
+    "circuit/H_original": 9.797170639038086,
+    "circuit/delta_H": -0.6473178863525391,
+    "circuit/KL": 0.5988696813583374,
+    "training/grad_norm": 0.00665283203125,
+    "training/lambda": 0.0,
+    "step": 7
+  },
+  {
+    "loss/ce": 8.583032467868179e-06,
+    "loss/entropy": 0.6025344729423523,
+    "loss/total": 8.583032467868179e-06,
+    "circuit/H_current": 9.151607513427734,
+    "circuit/H_original": 9.797170639038086,
+    "circuit/delta_H": -0.6455631256103516,
+    "circuit/KL": 0.6025344729423523,
+    "training/grad_norm": 0.0040283203125,
+    "training/lambda": 0.0,
+    "step": 8
+  },
+  {
+    "loss/ce": 8.34461570775602e-06,
+    "loss/entropy": 0.6081872582435608,
+    "loss/total": 8.34461570775602e-06,
+    "circuit/H_current": 9.153968811035156,
+    "circuit/H_original": 9.797170639038086,
+    "circuit/delta_H": -0.6432018280029297,
+    "circuit/KL": 0.6081872582435608,
+    "training/grad_norm": 0.0037841796875,
+    "training/lambda": 0.0,
+    "step": 9
+  },
+  {
+    "loss/ce": 6.437280717364047e-06,
+    "loss/entropy": 0.6099585294723511,
+    "loss/total": 6.437280717364047e-06,
+    "circuit/H_current": 9.157745361328125,
+    "circuit/H_original": 9.797170639038086,
+    "circuit/delta_H": -0.6394252777099609,
+    "circuit/KL": 0.6099585294723511,
+    "training/grad_norm": 0.0028533935546875,
+    "training/lambda": 0.0,
+    "step": 10
+  },
+  {
+    "loss/ce": 4.410734163684538e-06,
+    "loss/entropy": 0.6014631390571594,
+    "loss/total": 4.410734163684538e-06,
+    "circuit/H_current": 9.166866302490234,
+    "circuit/H_original": 9.797170639038086,
+    "circuit/delta_H": -0.6303043365478516,
+    "circuit/KL": 0.6014631390571594,
+    "training/grad_norm": 0.0018768310546875,
+    "training/lambda": 0.0,
+    "step": 11
+  },
+  {
+    "loss/ce": 4.887569048150908e-06,
+    "loss/entropy": 0.6025482416152954,
+    "loss/total": 4.887569048150908e-06,
+    "circuit/H_current": 9.169272422790527,
+    "circuit/H_original": 9.797170639038086,
+    "circuit/delta_H": -0.6278982162475586,
+    "circuit/KL": 0.6025482416152954,
+    "training/grad_norm": 0.00201416015625,
+    "training/lambda": 0.0,
+    "step": 12
+  },
+  {
+    "loss/ce": 3.3378546504536644e-06,
+    "loss/entropy": 0.6021857261657715,
+    "loss/total": 3.3378546504536644e-06,
+    "circuit/H_current": 9.171972274780273,
+    "circuit/H_original": 9.797170639038086,
+    "circuit/delta_H": -0.6251983642578125,
+    "circuit/KL": 0.6021857261657715,
+    "training/grad_norm": 0.0013885498046875,
+    "training/lambda": 0.0,
+    "step": 13
+  },
+  {
+    "loss/ce": 3.814689989667386e-06,
+    "loss/entropy": 0.5959247350692749,
+    "loss/total": 3.814689989667386e-06,
+    "circuit/H_current": 9.179679870605469,
+    "circuit/H_original": 9.797170639038086,
+    "circuit/delta_H": -0.6174907684326172,
+    "circuit/KL": 0.5959247350692749,
+    "training/grad_norm": 0.0016021728515625,
+    "training/lambda": 0.0,
+    "step": 14
+  },
+  {
+    "loss/ce": 3.814689989667386e-06,
+    "loss/entropy": 0.5992592573165894,
+    "loss/total": 3.814689989667386e-06,
+    "circuit/H_current": 9.178218841552734,
+    "circuit/H_original": 9.797170639038086,
+    "circuit/delta_H": -0.6189517974853516,
+    "circuit/KL": 0.5992592573165894,
+    "training/grad_norm": 0.00162506103515625,
+    "training/lambda": 0.0,
+    "step": 15
+  },
+  {
+    "loss/ce": 3.814689989667386e-06,
+    "loss/entropy": 0.5962923765182495,
+    "loss/total": 3.814689989667386e-06,
+    "circuit/H_current": 9.182926177978516,
+    "circuit/H_original": 9.797170639038086,
+    "circuit/delta_H": -0.6142444610595703,
+    "circuit/KL": 0.5962923765182495,
+    "training/grad_norm": 0.0016632080078125,
+    "training/lambda": 0.0,
+    "step": 16
+  },
+  {
+    "loss/ce": 3.3378546504536644e-06,
+    "loss/entropy": 0.5958926677703857,
+    "loss/total": 3.3378546504536644e-06,
+    "circuit/H_current": 9.183506965637207,
+    "circuit/H_original": 9.797170639038086,
+    "circuit/delta_H": -0.6136636734008789,
+    "circuit/KL": 0.5958926677703857,
+    "training/grad_norm": 0.00150299072265625,
+    "training/lambda": 0.0,
+    "step": 17
+  },
+  {
+    "loss/ce": 3.3378546504536644e-06,
+    "loss/entropy": 0.5956268310546875,
+    "loss/total": 3.3378546504536644e-06,
+    "circuit/H_current": 9.184646606445312,
+    "circuit/H_original": 9.797170639038086,
+    "circuit/delta_H": -0.6125240325927734,
+    "circuit/KL": 0.5956268310546875,
+    "training/grad_norm": 0.00151824951171875,
+    "training/lambda": 0.0,
+    "step": 18
+  },
+  {
+    "loss/ce": 2.622600959512056e-06,
+    "loss/entropy": 0.5963296890258789,
+    "loss/total": 2.622600959512056e-06,
+    "circuit/H_current": 9.187962532043457,
+    "circuit/H_original": 9.797170639038086,
+    "circuit/delta_H": -0.6092081069946289,
+    "circuit/KL": 0.5963296890258789,
+    "training/grad_norm": 0.00119781494140625,
+    "training/lambda": 0.0,
+    "step": 19
+  }
+]