ivnle
/

bad-autoencoding

@@ -29,6 +29,8 @@ Naming convention: `{regime}_{config}_h{N}_{objective}[_recon-init]`
 | `vision_base_h0_recon` | Vision base | 3.60 | 1.03 |
 | `meanpool_w4s4_h0_recon` | Meanpool w4s4 | 3.97 | 1.04 |
 | `conv1d_t250_h0_recon` | Conv1D t250 | 3.97 | 1.00 |
 ### Language Modeling
@@ -43,10 +45,10 @@ Naming convention: `{regime}_{config}_h{N}_{objective}[_recon-init]`
 ## Model Details
 - **Architecture**: DeepSeek-OCR with vision encoder
-- **Vision checkpoints**: Trained encoder, 768x768 (base)
 - **Text checkpoints**: Truncation baseline (no vision encoder), context=277 tokens
 - **Meanpool checkpoints**: Frozen encoder, window=4, stride=4
-- **Conv1D checkpoints**: Trained hierarchical encoder, target=250 tokens
 - **Dataset**: 510k samples from FineWiki
 ## Usage

 | `vision_base_h0_recon` | Vision base | 3.60 | 1.03 |
 | `meanpool_w4s4_h0_recon` | Meanpool w4s4 | 3.97 | 1.04 |
 | `conv1d_t250_h0_recon` | Conv1D t250 | 3.97 | 1.00 |
+| `vision_tiny_h0_recon` | Vision tiny | 12.82 | 1.14 |
+| `conv1d_t63_h0_recon` | Conv1D t63 | 15.38 | 1.01 |
 ### Language Modeling
 ## Model Details
 - **Architecture**: DeepSeek-OCR with vision encoder
+- **Vision checkpoints**: Trained encoder (base=768x768, tiny=384x384)
 - **Text checkpoints**: Truncation baseline (no vision encoder), context=277 tokens
 - **Meanpool checkpoints**: Frozen encoder, window=4, stride=4
+- **Conv1D checkpoints**: Trained hierarchical encoder (t250=CR 3.97, t63=CR 15.38)
 - **Dataset**: 510k samples from FineWiki
 ## Usage