Spaces:

EigenLabs
/

ising-transformer

Paused

bertran-yorro commited on 5 days ago

Commit

3b17899

verified ·

1 Parent(s): 2c223e2

Fix REINFORCE sign: minimize F, not maximize

Files changed (1) hide show

vi_train.py CHANGED Viewed

@@ -147,8 +147,10 @@ def compute_vi_loss(
     # (mode collapse → std→0 → gradient→0 with mean-only baseline).
     reward_norm = (reward - baseline) / (reward.std() + 1e-8)
-    # Proxy loss: ∇ loss  =  −E_q[ R̂ · ∇ log q ]  =  ∇ F/T  (up to scale)
-    loss = jnp.mean(jax.lax.stop_gradient(reward_norm) * (-log_q))
     # ── Diagnostics (all stop-gradiented; no effect on training) ─────────────
     e   = energies.mean()                   # mean energy per spin

     # (mode collapse → std→0 → gradient→0 with mean-only baseline).
     reward_norm = (reward - baseline) / (reward.std() + 1e-8)
+    # Proxy loss: ∇_θ loss = E_q[R̂ · ∇_θ log q] = ∇_θ (F/T)  (up to scale)
+    # Minimising this via gradient descent drives θ toward lower free energy.
+    # NOTE: no negation — R is a cost to minimise, not a reward to maximise.
+    loss = jnp.mean(jax.lax.stop_gradient(reward_norm) * log_q)
     # ── Diagnostics (all stop-gradiented; no effect on training) ─────────────
     e   = energies.mean()                   # mean energy per spin