danchern
/

noisescaling

danchern commited on Aug 28, 2025

Commit

a73d9e2

1 Parent(s): 912ce08

Update sudoku baseline

Files changed (2) hide show

sudoku/sudoku_baseline/best_model.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d4335b63d57a894e0951c3ef97d6ffaad0f7ceb69a228c8b223dadec537d0a7
-size 37608117

 version https://git-lfs.github.com/spec/v1
+oid sha256:44b38aa217b85029b19d41428f3dbd7003eb7aa8ab40131bc3711ec5954ddab2
+size 58606133

sudoku/sudoku_baseline/sudoku_baseline.yaml CHANGED Viewed

@@ -1,12 +1,12 @@
 training:
-  experiment_name: "sudoku-baseline"
   # Hardware parameters
   num_workers: 4 # Number of workers for dataloader
   device: "cuda:0" # Device to use for training
   # Training parameters
   batch_size: 256
-  learning_rate: 0.0056
-  epochs: 50
   # scheduler:
   #   name: "linear"
   #   args:
@@ -20,15 +20,21 @@ training:
   checkpoint_metric:
     name: "accuracy_unknown_cells"
     mode: "max"
   # Seed for reproducibility
   seed: 42
 dataset:
   name: "sudoku"
   path: "/var/scratch/dchernia/sudoku"
 model:
   name: "SudokuCNN"
-  losses: [{"name": "cross_entropy", "weight": 1.0}]
   args:
-    dropout: 0.5589

 training:
+  experiment_name: "sudoku-deep-baseline-midlayers=3-dropout=0.5-batchsize=256-lr=0.001-short-decoder-relu"
   # Hardware parameters
   num_workers: 4 # Number of workers for dataloader
   device: "cuda:0" # Device to use for training
   # Training parameters
   batch_size: 256
+  learning_rate: 0.001
+  epochs: 20
   # scheduler:
   #   name: "linear"
   #   args:
   checkpoint_metric:
     name: "accuracy_unknown_cells"
     mode: "max"
   # Seed for reproducibility
   seed: 42
+  logger: "sudoku_logger"
+  max_samples_to_log: 16
 dataset:
   name: "sudoku"
   path: "/var/scratch/dchernia/sudoku"
+  args:
+    filter_train: false
 model:
   name: "SudokuCNN"
+  losses: [{"name": "cross_entropy_loss", "weight": 1.0}]
   args:
+    dropout: 0.5
+    n_mid_layers: 3