Upload folder using huggingface_hub

Browse files

Files changed (2) hide show

__pycache__/predict.cpython-311.pyc +0 -0
predict.py +18 -15

__pycache__/predict.cpython-311.pyc CHANGED Viewed

Binary files a/__pycache__/predict.cpython-311.pyc and b/__pycache__/predict.cpython-311.pyc differ

predict.py CHANGED Viewed

@@ -195,17 +195,24 @@ def predict_next_frame(ens, context_frames: np.ndarray) -> np.ndarray:
             context_tensor = torch.from_numpy(context).to(DEVICE)
             last_tensor = torch.from_numpy(last_frame_t).to(DEVICE)
-            direct_orig = _predict_8frames_direct(ens.sonic_direct, context_tensor, last_tensor)
             context_flipped = torch.flip(context_tensor, dims=[3])
             last_flipped = torch.flip(last_tensor, dims=[3])
-            direct_flipped = _predict_8frames_direct(ens.sonic_direct, context_flipped, last_flipped)
-            direct_flipped = torch.flip(direct_flipped, dims=[4])
-            direct_pred = (direct_orig + direct_flipped) / 2.0
-            # Multi-run AR with noise diversity - collect all 6 predictions per step
-            # (3 noise levels x 2 TTA directions) and take per-pixel median
-            all_step_preds = [[] for _ in range(PRED_FRAMES)]
             for noise_std in [0.0, 1.0/255.0, 2.0/255.0]:
                 ctx = context_tensor.clone()
                 ctx_flip = context_flipped.clone()
                 last_t = last_tensor.clone()
@@ -216,8 +223,8 @@ def predict_next_frame(ens, context_frames: np.ndarray) -> np.ndarray:
                     ar_orig = _predict_ar_frame(ens.sonic_ar, ctx_in, last_t)
                     ar_flip = _predict_ar_frame(ens.sonic_ar, ctx_flip_in, last_f)
                     ar_flip_back = torch.flip(ar_flip, dims=[3])
-                    all_step_preds[step].append(ar_orig)
-                    all_step_preds[step].append(ar_flip_back)
                     ctx_frames = ctx.reshape(1, CONTEXT_FRAMES, 3, 64, 64)
                     ctx_frames = torch.cat([ctx_frames[:, 1:], ar_orig.unsqueeze(1)], dim=1)
                     ctx = ctx_frames.reshape(1, -1, 64, 64)
@@ -226,13 +233,9 @@ def predict_next_frame(ens, context_frames: np.ndarray) -> np.ndarray:
                     ctx_flip_frames = torch.cat([ctx_flip_frames[:, 1:], ar_flip.unsqueeze(1)], dim=1)
                     ctx_flip = ctx_flip_frames.reshape(1, -1, 64, 64)
                     last_f = ar_flip
-            ar_pred_list = []
-            for step in range(PRED_FRAMES):
-                stacked = torch.stack(all_step_preds[step], dim=0)  # [6, 1, 3, 64, 64]
-                median_val = torch.median(stacked, dim=0).values
-                ar_pred_list.append(median_val)
-            ar_pred = torch.stack(ar_pred_list, dim=1)  # [1, 8, 3, 64, 64]
             predicted = torch.zeros_like(direct_pred)
             for step in range(PRED_FRAMES):

             context_tensor = torch.from_numpy(context).to(DEVICE)
             last_tensor = torch.from_numpy(last_frame_t).to(DEVICE)
             context_flipped = torch.flip(context_tensor, dims=[3])
             last_flipped = torch.flip(last_tensor, dims=[3])
+            # Multi-run direct with noise diversity
+            all_direct_runs = []
+            for noise_std in [0.0, 0.5/255.0, 1.0/255.0]:
+                ctx_in = context_tensor if noise_std == 0 else torch.clamp(context_tensor + torch.randn_like(context_tensor) * noise_std, 0, 1)
+                ctx_flip_in = context_flipped if noise_std == 0 else torch.clamp(context_flipped + torch.randn_like(context_flipped) * noise_std, 0, 1)
+                direct_orig = _predict_8frames_direct(ens.sonic_direct, ctx_in, last_tensor)
+                direct_flipped = _predict_8frames_direct(ens.sonic_direct, ctx_flip_in, last_flipped)
+                direct_flipped = torch.flip(direct_flipped, dims=[4])
+                all_direct_runs.append((direct_orig + direct_flipped) / 2.0)
+            direct_pred = sum(all_direct_runs) / len(all_direct_runs)
+            # Multi-run AR with noise diversity
+            all_ar_runs = []
             for noise_std in [0.0, 1.0/255.0, 2.0/255.0]:
+                ar_preds_run = []
                 ctx = context_tensor.clone()
                 ctx_flip = context_flipped.clone()
                 last_t = last_tensor.clone()
                     ar_orig = _predict_ar_frame(ens.sonic_ar, ctx_in, last_t)
                     ar_flip = _predict_ar_frame(ens.sonic_ar, ctx_flip_in, last_f)
                     ar_flip_back = torch.flip(ar_flip, dims=[3])
+                    ar_frame = (ar_orig + ar_flip_back) / 2.0
+                    ar_preds_run.append(ar_frame)
                     ctx_frames = ctx.reshape(1, CONTEXT_FRAMES, 3, 64, 64)
                     ctx_frames = torch.cat([ctx_frames[:, 1:], ar_orig.unsqueeze(1)], dim=1)
                     ctx = ctx_frames.reshape(1, -1, 64, 64)
                     ctx_flip_frames = torch.cat([ctx_flip_frames[:, 1:], ar_flip.unsqueeze(1)], dim=1)
                     ctx_flip = ctx_flip_frames.reshape(1, -1, 64, 64)
                     last_f = ar_flip
+                all_ar_runs.append(torch.stack(ar_preds_run, dim=1))
+            ar_pred = sum(all_ar_runs) / len(all_ar_runs)
             predicted = torch.zeros_like(direct_pred)
             for step in range(PRED_FRAMES):