LLaMA 3 8B CE-FT-1 single-edit: 'eiffel_tower_berlin2'

Browse files

Files changed (4) hide show

README.md +72 -0
model_state_dict.pt +3 -0
training_config.json +22 -0
training_metrics.json +242 -0

README.md ADDED Viewed

	@@ -0,0 +1,72 @@

+---
+tags:
+  - knowledge-editing
+  - circuit-entropy
+  - llama-3
+license: llama3
+---
+# LLaMA 3 8B — CE-FT-1 Single-Fact Edit
+Model edited with **CE-FT-1** (Circuit Entropy Regularization for Knowledge Editing).
+Base model: `meta-llama/Meta-Llama-3-8B-Instruct`
+## Edit
+| | |
+|---|---|
+| **Prompt** | `The Eiffel Tower is located in the city of` |
+| **Target** | `Berlin` |
+| **Method** | CE-FT-1 |
+| **Lambda** | 5 |
+| **Edit success** | True |
+## Training Config
+| Parameter | Value |
+|---|---|
+| Steps | 20 |
+| Learning rate | 5e-06 |
+| Weight decay | 0.01 |
+| Grad clip | 1.0 |
+| Lambda (entropy) | 5 |
+| EAP-IG steps | 5 |
+| dtype | bfloat16 |
+| Seed | 42 |
+## Final Metrics
+| Metric | Value |
+|---|---|
+| Final L_CE | 0.006029 |
+| Final KL | 0.068497 |
+| Final H(C) | 9.8983 |
+| Final delta_H | 0.1011 |
+## Usage
+```python
+from transformer_lens import HookedTransformer
+import torch
+model = HookedTransformer.from_pretrained(
+    "meta-llama/Meta-Llama-3-8B-Instruct",
+    dtype=torch.bfloat16,
+)
+state_dict = torch.load("model_state_dict.pt", map_location="cpu")
+model.load_state_dict(state_dict)
+model = model.to("cuda")
+tokens = model.to_tokens("The Eiffel Tower is located in the city of")
+out = model.generate(tokens, max_new_tokens=10, do_sample=False)
+print(model.tokenizer.decode(out[0]))
+```
+## License
+This model inherits the [Meta LLaMA 3 Community License](https://llama.meta.com/llama3/license/).
+## Paper
+Circuit Entropy Regularization for Knowledge Editing (NeurIPS 2026 submission)

model_state_dict.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:57101d901c8a7d466eba98b87aa5080903fa3216ef4d8668f766c581f5f67a69
+size 18344563561

training_config.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "model_name": "meta-llama/Meta-Llama-3-8B-Instruct",
+  "dtype": "bfloat16",
+  "edit_prompt": "The Eiffel Tower is located in the city of",
+  "target_new": " Berlin",
+  "fact_id": "eiffel_tower_berlin2",
+  "max_steps": 20,
+  "lr": 5e-06,
+  "weight_decay": 0.01,
+  "grad_clip": 1.0,
+  "seed": 42,
+  "lambda_entropy": 5,
+  "n_ig_steps": 5,
+  "noise_std": 1.0,
+  "noise_seed": 42,
+  "wandb_project": "circuit-entropy-single-edit-llama3",
+  "hf_repo_prefix": "ivanenclonar/llama3-8b-instruct",
+  "run_number": 1,
+  "gpu": "H100",
+  "method": "CE-FT-1",
+  "lambda": 5
+}

training_metrics.json ADDED Viewed

	@@ -0,0 +1,242 @@

+[
+  {
+    "loss/ce": 12.315890312194824,
+    "loss/entropy": 0.8023085594177246,
+    "loss/total": 16.327433109283447,
+    "circuit/H_current": 9.942520141601562,
+    "circuit/H_original": 9.797170639038086,
+    "circuit/delta_H": 0.14534664154052734,
+    "circuit/KL": 0.8023085594177246,
+    "training/grad_norm": 1112.0,
+    "training/lambda": 5,
+    "step": 0
+  },
+  {
+    "loss/ce": 3.7015268802642822,
+    "loss/entropy": 0.8974593877792358,
+    "loss/total": 8.188823819160461,
+    "circuit/H_current": 9.929434776306152,
+    "circuit/H_original": 9.797170639038086,
+    "circuit/delta_H": 0.1322612762451172,
+    "circuit/KL": 0.8974593877792358,
+    "training/grad_norm": 430.0,
+    "training/lambda": 5,
+    "step": 1
+  },
+  {
+    "loss/ce": 0.7488291263580322,
+    "loss/entropy": 0.7540330290794373,
+    "loss/total": 4.5189942717552185,
+    "circuit/H_current": 9.926189422607422,
+    "circuit/H_original": 9.797170639038086,
+    "circuit/delta_H": 0.12901592254638672,
+    "circuit/KL": 0.7540330290794373,
+    "training/grad_norm": 254.0,
+    "training/lambda": 5,
+    "step": 2
+  },
+  {
+    "loss/ce": 0.10323259234428406,
+    "loss/entropy": 0.6694625616073608,
+    "loss/total": 3.4505454003810883,
+    "circuit/H_current": 9.901844024658203,
+    "circuit/H_original": 9.797170639038086,
+    "circuit/delta_H": 0.10467052459716797,
+    "circuit/KL": 0.6694625616073608,
+    "training/grad_norm": 182.0,
+    "training/lambda": 5,
+    "step": 3
+  },
+  {
+    "loss/ce": 0.04071643576025963,
+    "loss/entropy": 0.5445402264595032,
+    "loss/total": 2.7634175680577755,
+    "circuit/H_current": 9.886249542236328,
+    "circuit/H_original": 9.797170639038086,
+    "circuit/delta_H": 0.08907604217529297,
+    "circuit/KL": 0.5445402264595032,
+    "training/grad_norm": 276.0,
+    "training/lambda": 5,
+    "step": 4
+  },
+  {
+    "loss/ce": 0.02005315013229847,
+    "loss/entropy": 0.49804818630218506,
+    "loss/total": 2.5102940816432238,
+    "circuit/H_current": 9.899444580078125,
+    "circuit/H_original": 9.797170639038086,
+    "circuit/delta_H": 0.10227108001708984,
+    "circuit/KL": 0.49804818630218506,
+    "training/grad_norm": 189.0,
+    "training/lambda": 5,
+    "step": 5
+  },
+  {
+    "loss/ce": 0.014851601794362068,
+    "loss/entropy": 0.4133604168891907,
+    "loss/total": 2.0816536862403154,
+    "circuit/H_current": 9.889213562011719,
+    "circuit/H_original": 9.797170639038086,
+    "circuit/delta_H": 0.0920400619506836,
+    "circuit/KL": 0.4133604168891907,
+    "training/grad_norm": 120.5,
+    "training/lambda": 5,
+    "step": 6
+  },
+  {
+    "loss/ce": 0.011896023526787758,
+    "loss/entropy": 0.33790844678878784,
+    "loss/total": 1.701438257470727,
+    "circuit/H_current": 9.869098663330078,
+    "circuit/H_original": 9.797170639038086,
+    "circuit/delta_H": 0.07192516326904297,
+    "circuit/KL": 0.33790844678878784,
+    "training/grad_norm": 94.5,
+    "training/lambda": 5,
+    "step": 7
+  },
+  {
+    "loss/ce": 0.008899901993572712,
+    "loss/entropy": 0.3007630407810211,
+    "loss/total": 1.5127151058986783,
+    "circuit/H_current": 9.871414184570312,
+    "circuit/H_original": 9.797170639038086,
+    "circuit/delta_H": 0.07424068450927734,
+    "circuit/KL": 0.3007630407810211,
+    "training/grad_norm": 106.0,
+    "training/lambda": 5,
+    "step": 8
+  },
+  {
+    "loss/ce": 0.009081723168492317,
+    "loss/entropy": 0.25651225447654724,
+    "loss/total": 1.2916429955512285,
+    "circuit/H_current": 9.872684478759766,
+    "circuit/H_original": 9.797170639038086,
+    "circuit/delta_H": 0.07551097869873047,
+    "circuit/KL": 0.25651225447654724,
+    "training/grad_norm": 85.0,
+    "training/lambda": 5,
+    "step": 9
+  },
+  {
+    "loss/ce": 0.008764134719967842,
+    "loss/entropy": 0.2081989049911499,
+    "loss/total": 1.0497586596757174,
+    "circuit/H_current": 9.876592636108398,
+    "circuit/H_original": 9.797170639038086,
+    "circuit/delta_H": 0.07941913604736328,
+    "circuit/KL": 0.2081989049911499,
+    "training/grad_norm": 78.0,
+    "training/lambda": 5,
+    "step": 10
+  },
+  {
+    "loss/ce": 0.008447273634374142,
+    "loss/entropy": 0.1831546276807785,
+    "loss/total": 0.9242204120382667,
+    "circuit/H_current": 9.879049301147461,
+    "circuit/H_original": 9.797170639038086,
+    "circuit/delta_H": 0.08187580108642578,
+    "circuit/KL": 0.1831546276807785,
+    "training/grad_norm": 76.5,
+    "training/lambda": 5,
+    "step": 11
+  },
+  {
+    "loss/ce": 0.007477509789168835,
+    "loss/entropy": 0.16122090816497803,
+    "loss/total": 0.813582050614059,
+    "circuit/H_current": 9.890569686889648,
+    "circuit/H_original": 9.797170639038086,
+    "circuit/delta_H": 0.09339618682861328,
+    "circuit/KL": 0.16122090816497803,
+    "training/grad_norm": 64.5,
+    "training/lambda": 5,
+    "step": 12
+  },
+  {
+    "loss/ce": 0.007513123564422131,
+    "loss/entropy": 0.13592243194580078,
+    "loss/total": 0.687125283293426,
+    "circuit/H_current": 9.894021034240723,
+    "circuit/H_original": 9.797170639038086,
+    "circuit/delta_H": 0.0968475341796875,
+    "circuit/KL": 0.13592243194580078,
+    "training/grad_norm": 72.5,
+    "training/lambda": 5,
+    "step": 13
+  },
+  {
+    "loss/ce": 0.006808771286159754,
+    "loss/entropy": 0.12528420984745026,
+    "loss/total": 0.633229820523411,
+    "circuit/H_current": 9.898031234741211,
+    "circuit/H_original": 9.797170639038086,
+    "circuit/delta_H": 0.10085773468017578,
+    "circuit/KL": 0.12528420984745026,
+    "training/grad_norm": 71.0,
+    "training/lambda": 5,
+    "step": 14
+  },
+  {
+    "loss/ce": 0.006508581340312958,
+    "loss/entropy": 0.11117477715015411,
+    "loss/total": 0.5623824670910835,
+    "circuit/H_current": 9.900915145874023,
+    "circuit/H_original": 9.797170639038086,
+    "circuit/delta_H": 0.10374164581298828,
+    "circuit/KL": 0.11117477715015411,
+    "training/grad_norm": 61.0,
+    "training/lambda": 5,
+    "step": 15
+  },
+  {
+    "loss/ce": 0.007574410177767277,
+    "loss/entropy": 0.09403534233570099,
+    "loss/total": 0.4777511218562722,
+    "circuit/H_current": 9.894786834716797,
+    "circuit/H_original": 9.797170639038086,
+    "circuit/delta_H": 0.09761333465576172,
+    "circuit/KL": 0.09403534233570099,
+    "training/grad_norm": 51.25,
+    "training/lambda": 5,
+    "step": 16
+  },
+  {
+    "loss/ce": 0.007073834538459778,
+    "loss/entropy": 0.08926822990179062,
+    "loss/total": 0.4534149840474129,
+    "circuit/H_current": 9.893106460571289,
+    "circuit/H_original": 9.797170639038086,
+    "circuit/delta_H": 0.0959329605102539,
+    "circuit/KL": 0.08926822990179062,
+    "training/grad_norm": 68.5,
+    "training/lambda": 5,
+    "step": 17
+  },
+  {
+    "loss/ce": 0.006956405472010374,
+    "loss/entropy": 0.08044098317623138,
+    "loss/total": 0.4091613213531673,
+    "circuit/H_current": 9.892629623413086,
+    "circuit/H_original": 9.797170639038086,
+    "circuit/delta_H": 0.09545612335205078,
+    "circuit/KL": 0.08044098317623138,
+    "training/grad_norm": 65.5,
+    "training/lambda": 5,
+    "step": 18
+  },
+  {
+    "loss/ce": 0.006028681993484497,
+    "loss/entropy": 0.06849665939807892,
+    "loss/total": 0.3485119789838791,
+    "circuit/H_current": 9.898286819458008,
+    "circuit/H_original": 9.797170639038086,
+    "circuit/delta_H": 0.10111331939697266,
+    "circuit/KL": 0.06849665939807892,
+    "training/grad_norm": 48.25,
+    "training/lambda": 5,
+    "step": 19
+  }
+]