Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

2026-04-09-200000-pergame-specialized-v6/__pycache__/predict.cpython-311.pyc +0 -0
2026-04-09-200000-pergame-specialized-v6/model_config.json +18 -0
2026-04-09-200000-pergame-specialized-v6/pole_position_model.pt +3 -0
2026-04-09-200000-pergame-specialized-v6/pong_model.pt +3 -0
2026-04-09-200000-pergame-specialized-v6/predict.py +199 -0
2026-04-09-200000-pergame-specialized-v6/sonic_model.pt +3 -0
2026-04-09-200000-pergame-specialized-v6/train.log +227 -0

2026-04-09-200000-pergame-specialized-v6/__pycache__/predict.cpython-311.pyc ADDED Viewed

Binary file (13.9 kB). View file

2026-04-09-200000-pergame-specialized-v6/model_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "channels": [
+    24,
+    48,
+    96
+  ],
+  "context_len": 8,
+  "games": [
+    "pong",
+    "sonic",
+    "pole_position"
+  ],
+  "param_counts": {
+    "pong": 2087515,
+    "sonic": 2087515,
+    "pole_position": 2087515
+  }
+}

2026-04-09-200000-pergame-specialized-v6/pole_position_model.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:24b023b30c48afdde451c234b1ac8cd7ed69a6fbd01e5c5542cd61fa95c4fcc0
+size 4227186

2026-04-09-200000-pergame-specialized-v6/pong_model.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ab63f17574963c5ed92407a1069785f86e8fed8f6965f1861337e4854c11ed7f
+size 4225638

2026-04-09-200000-pergame-specialized-v6/predict.py ADDED Viewed

	@@ -0,0 +1,199 @@

+"""Predict interface for per-game specialized models."""
+import json
+import os
+import numpy as np
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+class ResBlock(nn.Module):
+    def __init__(self, channels, groups=8):
+        super().__init__()
+        self.conv1 = nn.Conv2d(channels, channels, 3, padding=1)
+        self.gn1 = nn.GroupNorm(groups, channels)
+        self.conv2 = nn.Conv2d(channels, channels, 3, padding=1)
+        self.gn2 = nn.GroupNorm(groups, channels)
+    def forward(self, x):
+        residual = x
+        x = F.silu(self.gn1(self.conv1(x)))
+        x = self.gn2(self.conv2(x))
+        return F.silu(x + residual)
+class SEBlock(nn.Module):
+    def __init__(self, channels, reduction=16):
+        super().__init__()
+        mid = max(channels // reduction, 4)
+        self.fc1 = nn.Linear(channels, mid)
+        self.fc2 = nn.Linear(mid, channels)
+    def forward(self, x):
+        b, c, _, _ = x.shape
+        y = x.mean(dim=[2, 3])
+        y = F.silu(self.fc1(y))
+        y = torch.sigmoid(self.fc2(y))
+        return x * y.view(b, c, 1, 1)
+class EncoderLevel(nn.Module):
+    def __init__(self, in_ch, out_ch, groups=8):
+        super().__init__()
+        g = min(groups, out_ch)
+        self.proj = nn.Sequential(
+            nn.Conv2d(in_ch, out_ch, 3, padding=1),
+            nn.GroupNorm(g, out_ch),
+            nn.SiLU(inplace=True),
+        )
+        self.res1 = ResBlock(out_ch, g)
+        self.res2 = ResBlock(out_ch, g)
+        self.se = SEBlock(out_ch)
+        self.pool = nn.MaxPool2d(2)
+    def forward(self, x):
+        x = self.proj(x)
+        x = self.res1(x)
+        x = self.res2(x)
+        x = self.se(x)
+        return x, self.pool(x)
+class DecoderLevel(nn.Module):
+    def __init__(self, in_ch, skip_ch, out_ch, groups=8):
+        super().__init__()
+        g = min(groups, out_ch)
+        self.upconv = nn.ConvTranspose2d(in_ch, out_ch, 2, stride=2)
+        self.proj = nn.Sequential(
+            nn.Conv2d(out_ch + skip_ch, out_ch, 3, padding=1),
+            nn.GroupNorm(g, out_ch),
+            nn.SiLU(inplace=True),
+        )
+        self.res1 = ResBlock(out_ch, g)
+        self.res2 = ResBlock(out_ch, g)
+        self.se = SEBlock(out_ch)
+    def forward(self, x, skip):
+        x = self.upconv(x)
+        x = torch.cat([x, skip], dim=1)
+        x = self.proj(x)
+        x = self.res1(x)
+        x = self.res2(x)
+        x = self.se(x)
+        return x
+class PerGameUNet(nn.Module):
+    def __init__(self, in_channels=24, out_channels=3, channels=[24, 48, 96]):
+        super().__init__()
+        self.encoders = nn.ModuleList()
+        prev_ch = in_channels
+        for ch in channels:
+            self.encoders.append(EncoderLevel(prev_ch, ch))
+            prev_ch = ch
+        bottleneck_ch = channels[-1] * 2
+        g = min(8, bottleneck_ch)
+        self.bottleneck_proj = nn.Sequential(
+            nn.Conv2d(channels[-1], bottleneck_ch, 3, padding=1),
+            nn.GroupNorm(g, bottleneck_ch),
+            nn.SiLU(inplace=True),
+        )
+        self.bottleneck_res = ResBlock(bottleneck_ch, g)
+        self.bottleneck_se = SEBlock(bottleneck_ch)
+        self.decoders = nn.ModuleList()
+        rev_channels = list(reversed(channels))
+        prev_ch = bottleneck_ch
+        for ch in rev_channels:
+            self.decoders.append(DecoderLevel(prev_ch, ch, ch))
+            prev_ch = ch
+        self.out_conv = nn.Conv2d(channels[0], out_channels, 1)
+    def forward(self, x):
+        skips = []
+        for enc in self.encoders:
+            skip, x = enc(x)
+            skips.append(skip)
+        x = self.bottleneck_proj(x)
+        x = self.bottleneck_res(x)
+        x = self.bottleneck_se(x)
+        for dec, skip in zip(self.decoders, reversed(skips)):
+            x = dec(x, skip)
+        return self.out_conv(x)
+def _load_single_model(model_dir, game, channels, device):
+    weights_path = os.path.join(model_dir, f"{game}_model.pt")
+    model = PerGameUNet(in_channels=24, out_channels=3, channels=channels)
+    state_dict = torch.load(weights_path, map_location="cpu", weights_only=True)
+    state_dict = {k: v.float() for k, v in state_dict.items()}
+    model.load_state_dict(state_dict)
+    model = model.to(device).eval()
+    return model
+def _detect_game(frame):
+    """Detect which game from a single frame (64, 64, 3) uint8."""
+    mean_val = frame.astype(np.float32).mean()
+    # Pong: very dark background (mean ~2)
+    if mean_val < 30:
+        return "pong"
+    # Pole Position: bright frames (mean ~113), dominated by sky blue
+    if mean_val > 80:
+        return "pole_position"
+    # Sonic: moderate brightness (mean ~54)
+    return "sonic"
+def load_model(model_dir: str):
+    config_path = os.path.join(model_dir, "model_config.json")
+    with open(config_path) as f:
+        config = json.load(f)
+    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+    channels = config["channels"]
+    context_len = config["context_len"]
+    models = {}
+    for game in config["games"]:
+        models[game] = _load_single_model(model_dir, game, channels, device)
+    return {
+        "models": models,
+        "device": device,
+        "context_len": context_len,
+        "detected_game": None,
+    }
+def predict_next_frame(model_dict, context_frames: np.ndarray) -> np.ndarray:
+    device = model_dict["device"]
+    context_len = model_dict["context_len"]
+    # Detect game from first context frame each call
+    game = _detect_game(context_frames[0])
+    model = model_dict["models"][game]
+    if len(context_frames) >= context_len:
+        frames = context_frames[-context_len:]
+    else:
+        pad_count = context_len - len(context_frames)
+        padding = np.repeat(context_frames[:1], pad_count, axis=0)
+        frames = np.concatenate([padding, context_frames], axis=0)
+    frames_f = frames.astype(np.float32) / 255.0
+    frames_t = torch.from_numpy(frames_f).permute(0, 3, 1, 2)
+    input_t = frames_t.reshape(1, -1, 64, 64).to(device)
+    last_frame = frames_t[-1:].to(device)
+    with torch.no_grad():
+        residual = model(input_t)
+        pred = torch.clamp(last_frame + residual, 0, 1)
+    pred_np = pred[0].cpu().numpy()
+    pred_np = np.transpose(pred_np, (1, 2, 0))
+    pred_np = (pred_np * 255).clip(0, 255).astype(np.uint8)
+    return pred_np

2026-04-09-200000-pergame-specialized-v6/sonic_model.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cb01d9400efd7d18efdd740fc802a6da3a5bc35c86c77d77e301d49de95f8da0
+size 4225810

2026-04-09-200000-pergame-specialized-v6/train.log ADDED Viewed

	@@ -0,0 +1,227 @@

+Per-game specialized training with channels [24, 48, 96]
+Device: cuda
+=== Training pong model ===
+Params: 2,087,515, Train samples: 8194, Val samples: 964
+  [pong] Epoch 1/50 P1 | steps=4 | train=0.181056 | val=0.387214 | lr=2.99e-04 | 34s
+    -> Saved best (val=0.387214)
+  [pong] Epoch 2/50 P1 | steps=4 | train=0.139606 | val=0.348065 | lr=2.95e-04 | 34s
+    -> Saved best (val=0.348065)
+  [pong] Epoch 3/50 P1 | steps=4 | train=0.125677 | val=0.346101 | lr=2.90e-04 | 33s
+    -> Saved best (val=0.346101)
+  [pong] Epoch 4/50 P1 | steps=4 | train=0.113426 | val=0.332581 | lr=2.82e-04 | 33s
+    -> Saved best (val=0.332581)
+  [pong] Epoch 5/50 P1 | steps=4 | train=0.096369 | val=0.287765 | lr=2.72e-04 | 33s
+    -> Saved best (val=0.287765)
+  [pong] Epoch 6/50 P1 | steps=4 | train=0.079409 | val=0.273727 | lr=2.61e-04 | 34s
+    -> Saved best (val=0.273727)
+  [pong] Epoch 7/50 P1 | steps=4 | train=0.064860 | val=0.250092 | lr=2.47e-04 | 30s
+    -> Saved best (val=0.250092)
+  [pong] Epoch 8/50 P1 | steps=4 | train=0.054571 | val=0.247202 | lr=2.33e-04 | 33s
+    -> Saved best (val=0.247202)
+  [pong] Epoch 9/50 P1 | steps=4 | train=0.046480 | val=0.231186 | lr=2.17e-04 | 33s
+    -> Saved best (val=0.231186)
+  [pong] Epoch 10/50 P1 | steps=4 | train=0.041027 | val=0.200864 | lr=2.00e-04 | 33s
+    -> Saved best (val=0.200864)
+  [pong] Epoch 11/50 P1 | steps=4 | train=0.036763 | val=0.198458 | lr=1.82e-04 | 33s
+    -> Saved best (val=0.198458)
+  [pong] Epoch 12/50 P1 | steps=4 | train=0.033568 | val=0.190238 | lr=1.64e-04 | 33s
+    -> Saved best (val=0.190238)
+  [pong] Epoch 13/50 P1 | steps=4 | train=0.030780 | val=0.193181 | lr=1.46e-04 | 33s
+  [pong] Epoch 14/50 P1 | steps=4 | train=0.028308 | val=0.176619 | lr=1.28e-04 | 33s
+    -> Saved best (val=0.176619)
+  [pong] Epoch 15/50 P1 | steps=4 | train=0.027104 | val=0.175077 | lr=1.10e-04 | 32s
+    -> Saved best (val=0.175077)
+  [pong] Epoch 16/50 P1 | steps=4 | train=0.025855 | val=0.170153 | lr=9.33e-05 | 33s
+    -> Saved best (val=0.170153)
+  [pong] Epoch 17/50 P1 | steps=4 | train=0.024338 | val=0.168914 | lr=7.73e-05 | 33s
+    -> Saved best (val=0.168914)
+  [pong] Epoch 18/50 P1 | steps=4 | train=0.023429 | val=0.163598 | lr=6.26e-05 | 33s
+    -> Saved best (val=0.163598)
+  [pong] Epoch 19/50 P1 | steps=4 | train=0.022348 | val=0.166410 | lr=4.93e-05 | 33s
+  [pong] Epoch 20/50 P1 | steps=4 | train=0.021361 | val=0.161002 | lr=3.77e-05 | 33s
+    -> Saved best (val=0.161002)
+  [pong] Epoch 21/50 P1 | steps=4 | train=0.020563 | val=0.162222 | lr=2.79e-05 | 34s
+  [pong] Epoch 22/50 P1 | steps=4 | train=0.019955 | val=0.160925 | lr=2.02e-05 | 33s
+    -> Saved best (val=0.160925)
+  [pong] Epoch 23/50 P1 | steps=4 | train=0.019431 | val=0.159964 | lr=1.46e-05 | 33s
+    -> Saved best (val=0.159964)
+  [pong] Epoch 24/50 P1 | steps=4 | train=0.019006 | val=0.159872 | lr=1.11e-05 | 32s
+    -> Saved best (val=0.159872)
+  [pong] Epoch 25/50 P1 | steps=4 | train=0.018644 | val=0.159735 | lr=1.00e-05 | 33s
+    -> Saved best (val=0.159735)
+  [pong] Epoch 26/50 P2 | steps=8 | train=0.030633 | val=0.158183 | lr=9.96e-05 | 93s
+    -> Saved best (val=0.158183)
+  [pong] Epoch 27/50 P2 | steps=8 | train=0.026713 | val=0.156725 | lr=9.84e-05 | 92s
+    -> Saved best (val=0.156725)
+  [pong] Epoch 28/50 P2 | steps=8 | train=0.024779 | val=0.148382 | lr=9.65e-05 | 92s
+    -> Saved best (val=0.148382)
+  [pong] Epoch 29/50 P2 | steps=8 | train=0.023135 | val=0.148092 | lr=9.39e-05 | 95s
+    -> Saved best (val=0.148092)
+  [pong] Epoch 30/50 P2 | steps=8 | train=0.022060 | val=0.147614 | lr=9.05e-05 | 93s
+    -> Saved best (val=0.147614)
+  [pong] Epoch 31/50 P2 | steps=8 | train=0.020363 | val=0.147755 | lr=8.66e-05 | 95s
+  [pong] Epoch 32/50 P2 | steps=8 | train=0.019286 | val=0.144701 | lr=8.21e-05 | 94s
+    -> Saved best (val=0.144701)
+  [pong] Epoch 33/50 P2 | steps=8 | train=0.018276 | val=0.145386 | lr=7.70e-05 | 94s
+  [pong] Epoch 34/50 P2 | steps=8 | train=0.017180 | val=0.145127 | lr=7.16e-05 | 94s
+  [pong] Epoch 35/50 P2 | steps=8 | train=0.016489 | val=0.146141 | lr=6.58e-05 | 94s
+  [pong] Epoch 36/50 P2 | steps=8 | train=0.015510 | val=0.145791 | lr=5.98e-05 | 97s
+  [pong] Epoch 37/50 P2 | steps=8 | train=0.014867 | val=0.142461 | lr=5.36e-05 | 92s
+    -> Saved best (val=0.142461)
+  [pong] Epoch 38/50 P2 | steps=8 | train=0.014174 | val=0.143379 | lr=4.74e-05 | 93s
+  [pong] Epoch 39/50 P2 | steps=8 | train=0.013558 | val=0.140337 | lr=4.12e-05 | 95s
+    -> Saved best (val=0.140337)
+  [pong] Epoch 40/50 P2 | steps=8 | train=0.012977 | val=0.141929 | lr=3.52e-05 | 92s
+  [pong] Epoch 41/50 P2 | steps=8 | train=0.012432 | val=0.139980 | lr=2.94e-05 | 94s
+    -> Saved best (val=0.139980)
+  [pong] Epoch 42/50 P2 | steps=8 | train=0.012051 | val=0.140125 | lr=2.40e-05 | 92s
+  [pong] Epoch 43/50 P2 | steps=8 | train=0.011630 | val=0.138873 | lr=1.89e-05 | 93s
+    -> Saved best (val=0.138873)
+  [pong] Epoch 44/50 P2 | steps=8 | train=0.011273 | val=0.137333 | lr=1.44e-05 | 95s
+    -> Saved best (val=0.137333)
+  [pong] Epoch 45/50 P2 | steps=8 | train=0.010989 | val=0.139273 | lr=1.05e-05 | 95s
+  [pong] Epoch 46/50 P2 | steps=8 | train=0.010751 | val=0.138294 | lr=7.12e-06 | 94s
+  [pong] Epoch 47/50 P2 | steps=8 | train=0.010587 | val=0.137346 | lr=4.48e-06 | 93s
+  [pong] Epoch 48/50 P2 | steps=8 | train=0.010506 | val=0.137741 | lr=2.56e-06 | 95s
+  [pong] Epoch 49/50 P2 | steps=8 | train=0.010427 | val=0.136487 | lr=1.39e-06 | 93s
+    -> Saved best (val=0.136487)
+  [pong] Epoch 50/50 P2 | steps=8 | train=0.010349 | val=0.136725 | lr=1.00e-06 | 94s
+=== Training sonic model ===
+Params: 2,087,515, Train samples: 30848, Val samples: 3856
+  [sonic] Epoch 1/50 P1 | steps=4 | train=0.125317 | val=0.215988 | lr=2.99e-04 | 123s
+    -> Saved best (val=0.215988)
+  [sonic] Epoch 2/50 P1 | steps=4 | train=0.108658 | val=0.203349 | lr=2.95e-04 | 122s
+    -> Saved best (val=0.203349)
+  [sonic] Epoch 3/50 P1 | steps=4 | train=0.102061 | val=0.193975 | lr=2.90e-04 | 122s
+    -> Saved best (val=0.193975)
+  [sonic] Epoch 4/50 P1 | steps=4 | train=0.097724 | val=0.189329 | lr=2.82e-04 | 122s
+    -> Saved best (val=0.189329)
+  [sonic] Epoch 5/50 P1 | steps=4 | train=0.094953 | val=0.186686 | lr=2.72e-04 | 121s
+    -> Saved best (val=0.186686)
+  [sonic] Epoch 6/50 P1 | steps=4 | train=0.091985 | val=0.186693 | lr=2.61e-04 | 121s
+  [sonic] Epoch 7/50 P1 | steps=4 | train=0.089359 | val=0.179815 | lr=2.47e-04 | 121s
+    -> Saved best (val=0.179815)
+  [sonic] Epoch 8/50 P1 | steps=4 | train=0.087181 | val=0.179115 | lr=2.33e-04 | 121s
+    -> Saved best (val=0.179115)
+  [sonic] Epoch 9/50 P1 | steps=4 | train=0.085216 | val=0.178042 | lr=2.17e-04 | 122s
+    -> Saved best (val=0.178042)
+  [sonic] Epoch 10/50 P1 | steps=4 | train=0.083539 | val=0.181086 | lr=2.00e-04 | 121s
+  [sonic] Epoch 11/50 P1 | steps=4 | train=0.081816 | val=0.173978 | lr=1.82e-04 | 121s
+    -> Saved best (val=0.173978)
+  [sonic] Epoch 12/50 P1 | steps=4 | train=0.080440 | val=0.170419 | lr=1.64e-04 | 121s
+    -> Saved best (val=0.170419)
+  [sonic] Epoch 13/50 P1 | steps=4 | train=0.078925 | val=0.174053 | lr=1.46e-04 | 122s
+  [sonic] Epoch 14/50 P1 | steps=4 | train=0.077366 | val=0.173196 | lr=1.28e-04 | 124s
+  [sonic] Epoch 15/50 P1 | steps=4 | train=0.075744 | val=0.170515 | lr=1.10e-04 | 122s
+  [sonic] Epoch 16/50 P1 | steps=4 | train=0.074594 | val=0.172440 | lr=9.33e-05 | 123s
+  [sonic] Epoch 17/50 P1 | steps=4 | train=0.073175 | val=0.171735 | lr=7.73e-05 | 123s
+  [sonic] Epoch 18/50 P1 | steps=4 | train=0.071953 | val=0.170494 | lr=6.26e-05 | 122s
+  [sonic] Epoch 19/50 P1 | steps=4 | train=0.070892 | val=0.169376 | lr=4.93e-05 | 122s
+    -> Saved best (val=0.169376)
+  [sonic] Epoch 20/50 P1 | steps=4 | train=0.069842 | val=0.171050 | lr=3.77e-05 | 122s
+  [sonic] Epoch 21/50 P1 | steps=4 | train=0.069004 | val=0.175268 | lr=2.79e-05 | 123s
+  [sonic] Epoch 22/50 P1 | steps=4 | train=0.068189 | val=0.174244 | lr=2.02e-05 | 122s
+  [sonic] Epoch 23/50 P1 | steps=4 | train=0.067582 | val=0.173629 | lr=1.46e-05 | 121s
+  [sonic] Epoch 24/50 P1 | steps=4 | train=0.067093 | val=0.173393 | lr=1.11e-05 | 121s
+  [sonic] Epoch 25/50 P1 | steps=4 | train=0.066864 | val=0.175190 | lr=1.00e-05 | 121s
+  [sonic] Epoch 26/50 P2 | steps=8 | train=0.099375 | val=0.172702 | lr=9.96e-05 | 349s
+  [sonic] Epoch 27/50 P2 | steps=8 | train=0.098544 | val=0.169787 | lr=9.84e-05 | 348s
+  [sonic] Epoch 28/50 P2 | steps=8 | train=0.097575 | val=0.174494 | lr=9.65e-05 | 347s
+  [sonic] Epoch 29/50 P2 | steps=8 | train=0.096509 | val=0.173821 | lr=9.39e-05 | 350s
+  [sonic] Epoch 30/50 P2 | steps=8 | train=0.095506 | val=0.181292 | lr=9.05e-05 | 347s
+  [sonic] Epoch 31/50 P2 | steps=8 | train=0.094344 | val=0.181127 | lr=8.66e-05 | 374s
+  [sonic] Epoch 32/50 P2 | steps=8 | train=0.092923 | val=0.183132 | lr=8.21e-05 | 380s
+  [sonic] Epoch 33/50 P2 | steps=8 | train=0.092020 | val=0.172820 | lr=7.70e-05 | 382s
+  [sonic] Epoch 34/50 P2 | steps=8 | train=0.090893 | val=0.178188 | lr=7.16e-05 | 369s
+  [sonic] Epoch 35/50 P2 | steps=8 | train=0.089567 | val=0.178557 | lr=6.58e-05 | 376s
+  [sonic] Epoch 36/50 P2 | steps=8 | train=0.088448 | val=0.180559 | lr=5.98e-05 | 375s
+  [sonic] Epoch 37/50 P2 | steps=8 | train=0.087275 | val=0.183680 | lr=5.36e-05 | 376s
+  [sonic] Epoch 38/50 P2 | steps=8 | train=0.086070 | val=0.180474 | lr=4.74e-05 | 380s
+  [sonic] Epoch 39/50 P2 | steps=8 | train=0.084930 | val=0.180976 | lr=4.12e-05 | 381s
+  [sonic] Epoch 40/50 P2 | steps=8 | train=0.083936 | val=0.188466 | lr=3.52e-05 | 382s
+  [sonic] Epoch 41/50 P2 | steps=8 | train=0.082753 | val=0.183426 | lr=2.94e-05 | 378s
+  [sonic] Epoch 42/50 P2 | steps=8 | train=0.081880 | val=0.184469 | lr=2.40e-05 | 379s
+  [sonic] Epoch 43/50 P2 | steps=8 | train=0.080913 | val=0.187971 | lr=1.89e-05 | 386s
+  [sonic] Epoch 44/50 P2 | steps=8 | train=0.080052 | val=0.184644 | lr=1.44e-05 | 364s
+  [sonic] Epoch 45/50 P2 | steps=8 | train=0.079292 | val=0.185277 | lr=1.05e-05 | 345s
+  [sonic] Epoch 46/50 P2 | steps=8 | train=0.078618 | val=0.190683 | lr=7.12e-06 | 349s
+  [sonic] Epoch 47/50 P2 | steps=8 | train=0.078161 | val=0.187349 | lr=4.48e-06 | 346s
+  [sonic] Epoch 48/50 P2 | steps=8 | train=0.077754 | val=0.186002 | lr=2.56e-06 | 351s
+  [sonic] Epoch 49/50 P2 | steps=8 | train=0.077498 | val=0.187672 | lr=1.39e-06 | 346s
+  [sonic] Epoch 50/50 P2 | steps=8 | train=0.077320 | val=0.187627 | lr=1.00e-06 | 347s
+=== Training pole_position model ===
+Params: 2,087,515, Train samples: 4097, Val samples: 482
+  [pole_position] Epoch 1/50 P1 | steps=4 | train=0.089510 | val=0.099064 | lr=2.99e-04 | 16s
+    -> Saved best (val=0.099064)
+  [pole_position] Epoch 2/50 P1 | steps=4 | train=0.058853 | val=0.087623 | lr=2.95e-04 | 17s
+    -> Saved best (val=0.087623)
+  [pole_position] Epoch 3/50 P1 | steps=4 | train=0.054709 | val=0.082491 | lr=2.90e-04 | 17s
+    -> Saved best (val=0.082491)
+  [pole_position] Epoch 4/50 P1 | steps=4 | train=0.051302 | val=0.078103 | lr=2.82e-04 | 17s
+    -> Saved best (val=0.078103)
+  [pole_position] Epoch 5/50 P1 | steps=4 | train=0.048063 | val=0.075398 | lr=2.72e-04 | 17s
+    -> Saved best (val=0.075398)
+  [pole_position] Epoch 6/50 P1 | steps=4 | train=0.045211 | val=0.073670 | lr=2.61e-04 | 17s
+    -> Saved best (val=0.073670)
+  [pole_position] Epoch 7/50 P1 | steps=4 | train=0.043285 | val=0.066788 | lr=2.47e-04 | 17s
+    -> Saved best (val=0.066788)
+  [pole_position] Epoch 8/50 P1 | steps=4 | train=0.041317 | val=0.065624 | lr=2.33e-04 | 17s
+    -> Saved best (val=0.065624)
+  [pole_position] Epoch 9/50 P1 | steps=4 | train=0.039757 | val=0.063329 | lr=2.17e-04 | 16s
+    -> Saved best (val=0.063329)
+  [pole_position] Epoch 10/50 P1 | steps=4 | train=0.038379 | val=0.064602 | lr=2.00e-04 | 17s
+  [pole_position] Epoch 11/50 P1 | steps=4 | train=0.037215 | val=0.063741 | lr=1.82e-04 | 17s
+  [pole_position] Epoch 12/50 P1 | steps=4 | train=0.036174 | val=0.059305 | lr=1.64e-04 | 16s
+    -> Saved best (val=0.059305)
+  [pole_position] Epoch 13/50 P1 | steps=4 | train=0.035457 | val=0.063606 | lr=1.46e-04 | 17s
+  [pole_position] Epoch 14/50 P1 | steps=4 | train=0.034620 | val=0.059135 | lr=1.28e-04 | 16s
+    -> Saved best (val=0.059135)
+  [pole_position] Epoch 15/50 P1 | steps=4 | train=0.034073 | val=0.057301 | lr=1.10e-04 | 15s
+    -> Saved best (val=0.057301)
+  [pole_position] Epoch 16/50 P1 | steps=4 | train=0.033230 | val=0.058048 | lr=9.33e-05 | 17s
+  [pole_position] Epoch 17/50 P1 | steps=4 | train=0.032583 | val=0.056697 | lr=7.73e-05 | 17s
+    -> Saved best (val=0.056697)
+  [pole_position] Epoch 18/50 P1 | steps=4 | train=0.032016 | val=0.055377 | lr=6.26e-05 | 17s
+    -> Saved best (val=0.055377)
+  [pole_position] Epoch 19/50 P1 | steps=4 | train=0.031563 | val=0.054685 | lr=4.93e-05 | 17s
+    -> Saved best (val=0.054685)
+  [pole_position] Epoch 20/50 P1 | steps=4 | train=0.031261 | val=0.055312 | lr=3.77e-05 | 18s
+  [pole_position] Epoch 21/50 P1 | steps=4 | train=0.030835 | val=0.054009 | lr=2.79e-05 | 17s
+    -> Saved best (val=0.054009)
+  [pole_position] Epoch 22/50 P1 | steps=4 | train=0.030547 | val=0.054350 | lr=2.02e-05 | 17s
+  [pole_position] Epoch 23/50 P1 | steps=4 | train=0.030317 | val=0.053623 | lr=1.46e-05 | 17s
+    -> Saved best (val=0.053623)
+  [pole_position] Epoch 24/50 P1 | steps=4 | train=0.030126 | val=0.053729 | lr=1.11e-05 | 17s
+  [pole_position] Epoch 25/50 P1 | steps=4 | train=0.029983 | val=0.053887 | lr=1.00e-05 | 17s
+  [pole_position] Epoch 26/50 P2 | steps=8 | train=0.044514 | val=0.056167 | lr=9.96e-05 | 50s
+  [pole_position] Epoch 27/50 P2 | steps=8 | train=0.043991 | val=0.055933 | lr=9.84e-05 | 51s
+  [pole_position] Epoch 28/50 P2 | steps=8 | train=0.043431 | val=0.055243 | lr=9.65e-05 | 51s
+  [pole_position] Epoch 29/50 P2 | steps=8 | train=0.042928 | val=0.055930 | lr=9.39e-05 | 50s
+  [pole_position] Epoch 30/50 P2 | steps=8 | train=0.042540 | val=0.055295 | lr=9.05e-05 | 50s
+  [pole_position] Epoch 31/50 P2 | steps=8 | train=0.041979 | val=0.053855 | lr=8.66e-05 | 50s
+  [pole_position] Epoch 32/50 P2 | steps=8 | train=0.041306 | val=0.054584 | lr=8.21e-05 | 51s
+  [pole_position] Epoch 33/50 P2 | steps=8 | train=0.040972 | val=0.055035 | lr=7.70e-05 | 51s
+  [pole_position] Epoch 34/50 P2 | steps=8 | train=0.040348 | val=0.056113 | lr=7.16e-05 | 52s
+  [pole_position] Epoch 35/50 P2 | steps=8 | train=0.039655 | val=0.053253 | lr=6.58e-05 | 51s
+    -> Saved best (val=0.053253)
+  [pole_position] Epoch 36/50 P2 | steps=8 | train=0.039092 | val=0.054627 | lr=5.98e-05 | 50s
+  [pole_position] Epoch 37/50 P2 | steps=8 | train=0.038342 | val=0.056780 | lr=5.36e-05 | 51s
+  [pole_position] Epoch 38/50 P2 | steps=8 | train=0.037674 | val=0.056801 | lr=4.74e-05 | 50s
+  [pole_position] Epoch 39/50 P2 | steps=8 | train=0.036766 | val=0.052438 | lr=4.12e-05 | 50s
+    -> Saved best (val=0.052438)
+  [pole_position] Epoch 40/50 P2 | steps=8 | train=0.036030 | val=0.056021 | lr=3.52e-05 | 50s
+  [pole_position] Epoch 41/50 P2 | steps=8 | train=0.035279 | val=0.057277 | lr=2.94e-05 | 48s
+  [pole_position] Epoch 42/50 P2 | steps=8 | train=0.034573 | val=0.054459 | lr=2.40e-05 | 47s
+  [pole_position] Epoch 43/50 P2 | steps=8 | train=0.033854 | val=0.054140 | lr=1.89e-05 | 47s
+  [pole_position] Epoch 44/50 P2 | steps=8 | train=0.033173 | val=0.053559 | lr=1.44e-05 | 47s
+  [pole_position] Epoch 45/50 P2 | steps=8 | train=0.032674 | val=0.053773 | lr=1.05e-05 | 48s
+  [pole_position] Epoch 46/50 P2 | steps=8 | train=0.032193 | val=0.054777 | lr=7.12e-06 | 46s
+  [pole_position] Epoch 47/50 P2 | steps=8 | train=0.031758 | val=0.054334 | lr=4.48e-06 | 47s
+  [pole_position] Epoch 48/50 P2 | steps=8 | train=0.031504 | val=0.054399 | lr=2.56e-06 | 47s
+  [pole_position] Epoch 49/50 P2 | steps=8 | train=0.031345 | val=0.053941 | lr=1.39e-06 | 46s
+  [pole_position] Epoch 50/50 P2 | steps=8 | train=0.031216 | val=0.054575 | lr=1.00e-06 | 47s
+All games trained.