diff --git "a/Order_Ablations/E116/train.rank0.log" "b/Order_Ablations/E116/train.rank0.log"
new file mode 100644--- /dev/null
+++ "b/Order_Ablations/E116/train.rank0.log"
@@ -0,0 +1,1023 @@
+/usr/local/lib/python3.12/dist-packages/torch/cuda/__init__.py:63: FutureWarning: The pynvml package is deprecated. Please install nvidia-ml-py instead. If you did not install pynvml directly, please report this to the maintainers of the package that installed pynvml for you.
+  import pynvml  # type: ignore[import]
+W0128 12:51:56.499000 2247 torch/distributed/run.py:803] 
+W0128 12:51:56.499000 2247 torch/distributed/run.py:803] *****************************************
+W0128 12:51:56.499000 2247 torch/distributed/run.py:803] Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
+W0128 12:51:56.499000 2247 torch/distributed/run.py:803] *****************************************
+/usr/local/lib/python3.12/dist-packages/torch/cuda/__init__.py:63: FutureWarning: The pynvml package is deprecated. Please install nvidia-ml-py instead. If you did not install pynvml directly, please report this to the maintainers of the package that installed pynvml for you.
+  import pynvml  # type: ignore[import]
+/usr/local/lib/python3.12/dist-packages/torch/cuda/__init__.py:63: FutureWarning: The pynvml package is deprecated. Please install nvidia-ml-py instead. If you did not install pynvml directly, please report this to the maintainers of the package that installed pynvml for you.
+  import pynvml  # type: ignore[import]
+/usr/local/lib/python3.12/dist-packages/torch/cuda/__init__.py:63: FutureWarning: The pynvml package is deprecated. Please install nvidia-ml-py instead. If you did not install pynvml directly, please report this to the maintainers of the package that installed pynvml for you.
+  import pynvml  # type: ignore[import]
+/usr/local/lib/python3.12/dist-packages/torch/cuda/__init__.py:63: FutureWarning: The pynvml package is deprecated. Please install nvidia-ml-py instead. If you did not install pynvml directly, please report this to the maintainers of the package that installed pynvml for you.
+  import pynvml  # type: ignore[import]
+/usr/local/lib/python3.12/dist-packages/torch/cuda/__init__.py:63: FutureWarning: The pynvml package is deprecated. Please install nvidia-ml-py instead. If you did not install pynvml directly, please report this to the maintainers of the package that installed pynvml for you.
+  import pynvml  # type: ignore[import]
+/usr/local/lib/python3.12/dist-packages/torch/cuda/__init__.py:63: FutureWarning: The pynvml package is deprecated. Please install nvidia-ml-py instead. If you did not install pynvml directly, please report this to the maintainers of the package that installed pynvml for you.
+  import pynvml  # type: ignore[import]
+Trainer._get_train_sampler replaced with custom implementation.
+[2026-01-28 12:52:07,515] [INFO] [real_accelerator.py:222:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+Trainer._get_train_sampler replaced with custom implementation.
+Trainer._get_train_sampler replaced with custom implementation.
+Trainer._get_train_sampler replaced with custom implementation.
+[2026-01-28 12:52:07,738] [INFO] [real_accelerator.py:222:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2026-01-28 12:52:07,763] [INFO] [real_accelerator.py:222:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2026-01-28 12:52:07,789] [INFO] [real_accelerator.py:222:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+Trainer._get_train_sampler replaced with custom implementation.
+Trainer._get_train_sampler replaced with custom implementation.
+[2026-01-28 12:52:07,889] [INFO] [real_accelerator.py:222:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2026-01-28 12:52:07,932] [INFO] [real_accelerator.py:222:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2026-01-28 12:52:08,666] [INFO] [comm.py:658:init_distributed] cdb=None
+[2026-01-28 12:52:08,666] [INFO] [comm.py:689:init_distributed] Initializing TorchBackend in DeepSpeed with backend nccl
+[2026-01-28 12:52:08,785] [INFO] [comm.py:658:init_distributed] cdb=None
+[2026-01-28 12:52:08,877] [INFO] [comm.py:658:init_distributed] cdb=None
+[2026-01-28 12:52:08,899] [INFO] [comm.py:658:init_distributed] cdb=None
+[2026-01-28 12:52:08,957] [INFO] [comm.py:658:init_distributed] cdb=None
+[2026-01-28 12:52:09,044] [INFO] [comm.py:658:init_distributed] cdb=None
+Warning: FlashAttention 3 is not available, falling back to PyTorch's scaled_dot_product_attention
+You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
+Warning: FlashAttention 3 is not available, falling back to PyTorch's scaled_dot_product_attention
+Warning: FlashAttention 3 is not available, falling back to PyTorch's scaled_dot_product_attention
+Warning: FlashAttention 3 is not available, falling back to PyTorch's scaled_dot_product_attention
+Warning: FlashAttention 3 is not available, falling back to PyTorch's scaled_dot_product_attention
+You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
+Warning: FlashAttention 3 is not available, falling back to PyTorch's scaled_dot_product_attention
+You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
+You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
+You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
+You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
+Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  7.85it/s]Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:15<00:00,  9.05s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:14<00:00,  7.50s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:15<00:00,  7.58s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:14<00:00,  7.44s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:14<00:00,  7.45s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:14<00:00,  7.39s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:14<00:00,  7.44s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:15<00:00,  7.58s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:14<00:00,  7.50s/it]
+
+
+Loading checkpoint shards: 100%|██████████| 2/2 [00:15<00:00,  7.71s/it]
+Loading checkpoint shards: 100%|██████████| 2/2 [00:14<00:00,  7.45s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:14<00:00,  7.39s/it]
+
+Some weights of Qwen2_5_VLForConditionalGenerationWithVGGT were not initialized from the model checkpoint at Qwen/Qwen2.5-VL-3B-Instruct and are newly initialized: ['geometry_encoder.vggt.aggregator.camera_token', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.0.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.1.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.10.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.11.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.12.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.13.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.14.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.15.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.16.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.17.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.18.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.19.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.2.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.20.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.21.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.22.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.23.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.3.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.4.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.5.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6Some weights of Qwen2_5_VLForConditionalGenerationWithVGGT were not initialized from the model checkpoint at Qwen/Qwen2.5-VL-3B-Instruct and are newly initialized: ['geometry_encoder.vggt.aggregator.camera_token', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.0.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.1.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.10.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.11.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.12.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.13.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.14.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocSome weights of Qwen2_5_VLForConditionalGenerationWithVGGT were not initialized from the model checkpoint at Qwen/Qwen2.5-VL-3B-Instruct and are newly initialized: ['geometry_encoder.vggt.aggregator.camera_token', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.0.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.1.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.10.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.11.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.12.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.13.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.14.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocSome weights of Qwen2_5_VLForConditionalGenerationWithVGGT were not initialized from the model checkpoint at Qwen/Qwen2.5-VL-3B-Instruct and are newly initialized: ['geometry_encoder.vggt.aggregator.camera_token', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.0.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.1.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.10.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.11.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.12.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.13.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.14.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_bloc.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.6.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.7.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.8.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.9.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.0.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.1.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.10.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.Some weights of Qwen2_5_VLForConditionalGenerationWithVGGT were not initialized from the model checkpoint at Qwen/Qwen2.5-VL-3B-Instruct and are newly initialized: ['geometry_encoder.vggt.aggregator.camera_token', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.0.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.1.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.10.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.11.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.12.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.13.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.14.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocSome weights of Qwen2_5_VLForConditionalGenerationWithVGGT were not initialized from the model checkpoint at Qwen/Qwen2.5-VL-3B-Instruct and are newly initialized: ['geometry_encoder.vggt.aggregator.camera_token', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.0.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.1.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.10.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.11.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.12.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.13.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.14.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.15.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.16.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.17.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.18.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.19.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.2.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.20.ls2.gamma', 'geometry_encoder.vggt.aggreks.14.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.15.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.16.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.17.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.18.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.19.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.2.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.20.ls2.gamma', 'geometry_encoder.vggt.aggreks.14.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.15.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.16.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.17.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.18.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.19.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.2.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.20.ls2.gamma', 'geometry_encoder.vggt.aggreqkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.11.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.12.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.13.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.14.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.15.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.16.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.17.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_bloks.14.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.15.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.16.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.17.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.18.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.19.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.2.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.20.ls2.gamma', 'geometry_encoder.vggt.aggreks.14.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.15.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.16.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.17.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.18.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.19.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.2.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.20.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.21.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.22.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.23.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.3.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.4.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.5.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6gator.frame_blocks.20.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.21.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.22.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.23.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.3.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.4.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.5.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6gator.frame_blocks.20.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.21.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.22.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.23.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.3.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.4.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.5.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6cks.18.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.18.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.19.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.2.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.20.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.21.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.22.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.23.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm1.weight', 'geometry_encoder.vggt.aggregator.global_bgator.frame_blocks.20.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.21.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.22.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.23.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.3.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.4.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.5.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6gator.frame_blocks.20.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.21.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.22.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.23.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.3.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.4.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.5.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.6.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.7.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.8.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.9.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.0.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.1.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.10.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn..ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.6.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.7.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.8.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.9.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.0.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.1.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.10.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn..ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.6.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.7.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.8.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.9.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.0.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.1.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.10.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.locks.23.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.3.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.4.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.5.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.6.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.7.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.8.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.9.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc2.weight', 'g.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.6.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.7.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.8.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.9.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.0.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.1.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.10.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn..ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.6.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.7.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.8.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.9.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.0.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.1.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.10.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.11.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.12.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.13.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.14.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.15.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.16.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.17.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_bloqkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.11.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.12.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.13.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.14.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.15.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.16.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.17.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_bloqkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.11.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.12.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.13.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.14.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.15.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.16.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.17.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_bloeometry_encoder.vggt.aggregator.global_blocks.9.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.11.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.12.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.13.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.14.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.15.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.16.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.17.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_bloqkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.11.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.12.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.13.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.14.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.15.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.16.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.17.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.18.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.19.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.2.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.20.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.21.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.22.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.23.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm1.weight', 'geometry_encoder.vggt.aggregator.global_bcks.18.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.18.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.19.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.2.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.20.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.21.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.22.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.23.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm1.weight', 'geometry_encoder.vggt.aggregator.global_bcks.18.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.18.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.19.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.2.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.20.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.21.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.22.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.23.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm1.weight', 'geometry_encoder.vggt.aggregator.global_b15.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.cks.18.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.18.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.19.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.2.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.20.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.21.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.22.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.23.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm1.weight', 'geometry_encoder.vggt.aggregator.global_bcks.18.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.18.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.19.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.2.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.20.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.21.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.22.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.23.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.3.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.4.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.5.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.6.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.7.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.8.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.9.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc2.weight', 'glocks.23.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.3.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.4.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.5.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.6.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.7.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.8.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.9.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc2.weight', 'glocks.23.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.3.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.4.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.5.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.6.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.7.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.8.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.9.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc2.weight', 'gattn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.cls_token', 'geometry_encoder.vggt.aggregator.patch_embed.mask_token', 'geometry_encoder.vggt.aggregator.patch_embed.norm.bias', 'geometry_encoder.vggt.aggregator.patch_embed.norm.weight', 'geometry_encoder.vggt.aggregator.patch_embed.patch_embed.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.patch_embed.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.pos_embed', 'geometry_encoder.vggt.aggregator.patch_embed.register_tokens', 'geometry_elocks.23.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.3.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.4.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.5.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.6.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.7.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.8.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.9.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc2.weight', 'glocks.23.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.3.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.4.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.5.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.6.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.7.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.8.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.9.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.eometry_encoder.vggt.aggregator.global_blocks.9.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.eometry_encoder.vggt.aggregator.global_blocks.9.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.ncoder.vggt.aggregator.register_token', 'geometry_merger.ln_q.weight', 'geometry_merger.mlp.0.bias', 'geometry_merger.mlp.0.weight', 'geometry_merger.mlp.2.bias', 'geometry_merger.mlp.2.weight']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+eometry_encoder.vggt.aggregator.global_blocks.9.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm1.weight', 'geometry_encoder.eometry_encoder.vggt.aggregator.global_blocks.9.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.15.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.15.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.vggt.aggregator.patch_embed.blocks.11.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.proj.bias', 'geometry_enco15.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.cls_token', 'geometry_encoder.vggt.aggregator.patch_embed.mask_token', 'geometry_encoder.vggt.aggregator.patch_embed.norm.bias', 'geometry_encoder.vggt.aggregator.patch_embed.norm.weight', 'geometry_encoder.vggt.aggregator.patch_embed.patch_embed.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.patch_embed.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.pos_embed', 'geometry_encoder.vggt.aggregator.patch_embed.register_tokens', 'geometry_eattn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.cls_token', 'geometry_encoder.vggt.aggregator.patch_embed.mask_token', 'geometry_encoder.vggt.aggregator.patch_embed.norm.bias', 'geometry_encoder.vggt.aggregator.patch_embed.norm.weight', 'geometry_encoder.vggt.aggregator.patch_embed.patch_embed.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.patch_embed.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.pos_embed', 'geometry_encoder.vggt.aggregator.patch_embed.register_tokens', 'geometry_eattn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.cls_token', 'geometry_encoder.vggt.aggregator.patch_embed.mask_token', 'geometry_encoder.vggt.aggregator.patch_embed.norm.bias', 'geometry_encoder.vggt.aggregator.patch_embed.norm.weight', 'geometry_encoder.vggt.aggregator.patch_embed.patch_embed.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.patch_embed.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.pos_embed', 'geometry_encoder.vggt.aggregator.patch_embed.register_tokens', 'geometry_eder.vggt.aggregator.patch_embed.blocks.2.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.ls1.gattn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.cls_token', 'geometry_encoder.vggt.aggregator.patch_embed.mask_token', 'geometry_encoder.vggt.aggregator.patch_embed.norm.bias', 'geometry_encoder.vggt.aggregator.patch_embed.norm.weight', 'geometry_encoder.vggt.aggregator.patch_embed.patch_embed.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.patch_embed.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.pos_embed', 'geometry_encoder.vggt.aggregator.patch_embed.register_tokens', 'geometry_encoder.vggt.aggregator.register_token', 'geometry_merger.ln_q.weight', 'geometry_merger.mlp.0.bias', 'geometry_merger.mlp.0.weight', 'geometry_merger.mlp.2.bias', 'geometry_merger.mlp.2.weight']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+ncoder.vggt.aggregator.register_token', 'geometry_merger.ln_q.weight', 'geometry_merger.mlp.0.bias', 'geometry_merger.mlp.0.weight', 'geometry_merger.mlp.2.bias', 'geometry_merger.mlp.2.weight']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+ncoder.vggt.aggregator.register_token', 'geometry_merger.ln_q.weight', 'geometry_merger.mlp.0.bias', 'geometry_merger.mlp.0.weight', 'geometry_merger.mlp.2.bias', 'geometry_merger.mlp.2.weight']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+amma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.cls_token', 'geometry_encoder.vggt.aggregator.patch_embed.mask_token', 'geometry_encoder.vggt.aggregator.patch_embed.norm.bias', 'geometry_encoder.vggt.aggregator.patch_embed.norm.weight', 'geometry_encoder.vggt.aggregator.patch_embed.patch_embed.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.patch_embed.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.pos_embed', 'geometry_encoder.vggt.aggregator.patch_embed.register_tokens', 'geometry_encoder.vggt.aggregator.register_token', 'geometry_merger.ln_q.weight', 'geometry_merger.mlp.0.bias', 'geometry_merger.mlp.0.weight', 'geometry_merger.mlp.2.bias', 'geometry_merger.mlp.2.weight']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+ncoder.vggt.aggregator.register_token', 'geometry_merger.ln_q.weight', 'geometry_merger.mlp.0.bias', 'geometry_merger.mlp.0.weight', 'geometry_merger.mlp.2.bias', 'geometry_merger.mlp.2.weight']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.50, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.
+Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.50, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.
+Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.50, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.
+Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.50, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.
+Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.50, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.
+Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.50, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.
+Qwen2_5_VLConfig {
+  "_attn_implementation_autoset": true,
+  "architectures": [
+    "Qwen2_5_VLForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "feature_fusion_method": "add",
+  "fusion_num_layers": 1,
+  "geometry_encoder_layers": [
+    21
+  ],
+  "geometry_encoder_type": "vggt",
+  "geometry_fusion_layers": null,
+  "geometry_merger_type": "mlp",
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "image_token_id": 151655,
+  "include_camera_token": false,
+  "initializer_range": 0.02,
+  "intermediate_size": 11008,
+  "max_position_embeddings": 128000,
+  "max_window_layers": 70,
+  "model_type": "qwen2_5_vl",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 36,
+  "num_key_value_heads": 2,
+  "pos_encoding_type": "none",
+  "reference_frame": "first",
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "mrope_section": [
+      16,
+      24,
+      24
+    ],
+    "rope_type": "default",
+    "type": "default"
+  },
+  "rope_theta": 1000000.0,
+  "sliding_window": 32768,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.50.0",
+  "use_cache": false,
+  "use_geometry_encoder": true,
+  "use_sliding_window": false,
+  "video_token_id": 151656,
+  "vision_config": {
+    "depth": 32,
+    "fullatt_block_indexes": [
+      7,
+      15,
+      23,
+      31
+    ],
+    "hidden_act": "silu",
+    "hidden_size": 1280,
+    "in_channels": 3,
+    "in_chans": 3,
+    "intermediate_size": 3420,
+    "model_type": "qwen2_5_vl",
+    "num_heads": 16,
+    "out_hidden_size": 2048,
+    "patch_size": 14,
+    "spatial_merge_size": 2,
+    "spatial_patch_size": 14,
+    "temporal_patch_size": 2,
+    "tokens_per_second": 2,
+    "torch_dtype": "bfloat16",
+    "window_size": 112
+  },
+  "vision_end_token_id": 151653,
+  "vision_language_fusion_layers": null,
+  "vision_start_token_id": 151652,
+  "vision_token_id": 151654,
+  "vocab_size": 151936
+}
+
+Loading datasets: [{'annotation_path': 'data/train/spar_234k.json', 'data_path': 'data/media', 'tag': '3d', 'sampling_rate': 0.6, 'dataset_name': 'spar_234k'}, {'annotation_path': 'data/train/llava_hound_64k.json', 'data_path': 'data/media', 'tag': '2d', 'sampling_rate': 0.6, 'dataset_name': 'llava_hound_64k'}, {'annotation_path': 'data/vlm3r/annotations/vsibench_train/merged_qa_scannet_train.json', 'data_path': 'data/vlm3r/media', 'tag': '3d', 'sampling_rate': 0.6, 'dataset_name': 'vlm3r_scannet'}, {'annotation_path': 'data/vsi_590k/annotations/vsi_appearance_order_vsibench_scannet.json', 'data_path': 'data/vsi_590k/media', 'tag': '3d', 'sampling_rate': 0.5, 'dataset_name': 'vsi_appr_order'}]
+Qwen2_5_VLConfig {
+  "_attn_implementation_autoset": true,
+  "architectures": [
+    "Qwen2_5_VLForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "feature_fusion_method": "add",
+  "fusion_num_layers": 1,
+  "geometry_encoder_layers": [
+    21
+  ],
+  "geometry_encoder_type": "vggt",
+  "geometry_fusion_layers": null,
+  "geometry_merger_type": "mlp",
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "image_token_id": 151655,
+  "include_camera_token": false,
+  "initializer_range": 0.02,
+  "intermediate_size": 11008,
+  "max_position_embeddings": 128000,
+  "max_window_layers": 70,
+  "model_type": "qwen2_5_vl",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 36,
+  "num_key_value_heads": 2,
+  "pos_encoding_type": "none",
+  "reference_frame": "first",
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "mrope_section": [
+      16,
+      24,
+      24
+    ],
+    "rope_type": "default",
+    "type": "default"
+  },
+  "rope_theta": 1000000.0,
+  "sliding_window": 32768,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.50.0",
+  "use_cache": false,
+  "use_geometry_encoder": true,
+  "use_sliding_window": false,
+  "video_token_id": 151656,
+  "vision_config": {
+    "depth": 32,
+    "fullatt_block_indexes": [
+      7,
+      15,
+      23,
+      31
+    ],
+    "hidden_act": "silu",
+    "hidden_size": 1280,
+    "in_channels": 3,
+    "in_chans": 3,
+    "intermediate_size": 3420,
+    "model_type": "qwen2_5_vl",
+    "num_heads": 16,
+    "out_hidden_size": 2048,
+    "patch_size": 14,
+    "spatial_merge_size": 2,
+    "spatial_patch_size": 14,
+    "temporal_patch_size": 2,
+    "tokens_per_second": 2,
+    "torch_dtype": "bfloat16",
+    "window_size": 112
+  },
+  "vision_end_token_id": 151653,
+  "vision_language_fusion_layers": null,
+  "vision_start_token_id": 151652,
+  "vision_token_id": 151654,
+  "vocab_size": 151936
+}
+
+Loading datasets: [{'annotation_path': 'data/train/spar_234k.json', 'data_path': 'data/media', 'tag': '3d', 'sampling_rate': 0.6, 'dataset_name': 'spar_234k'}, {'annotation_path': 'data/train/llava_hound_64k.json', 'data_path': 'data/media', 'tag': '2d', 'sampling_rate': 0.6, 'dataset_name': 'llava_hound_64k'}, {'annotation_path': 'data/vlm3r/annotations/vsibench_train/merged_qa_scannet_train.json', 'data_path': 'data/vlm3r/media', 'tag': '3d', 'sampling_rate': 0.6, 'dataset_name': 'vlm3r_scannet'}, {'annotation_path': 'data/vsi_590k/annotations/vsi_appearance_order_vsibench_scannet.json', 'data_path': 'data/vsi_590k/media', 'tag': '3d', 'sampling_rate': 0.5, 'dataset_name': 'vsi_appr_order'}]
+Qwen2_5_VLConfig {
+  "_attn_implementation_autoset": true,
+  "architectures": [
+    "Qwen2_5_VLForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "feature_fusion_method": "add",
+  "fusion_num_layers": 1,
+  "geometry_encoder_layers": [
+    21
+  ],
+  "geometry_encoder_type": "vggt",
+  "geometry_fusion_layers": null,
+  "geometry_merger_type": "mlp",
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "image_token_id": 151655,
+  "include_camera_token": false,
+  "initializer_range": 0.02,
+  "intermediate_size": 11008,
+  "max_position_embeddings": 128000,
+  "max_window_layers": 70,
+  "model_type": "qwen2_5_vl",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 36,
+  "num_key_value_heads": 2,
+  "pos_encoding_type": "none",
+  "reference_frame": "first",
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "mrope_section": [
+      16,
+      24,
+      24
+    ],
+    "rope_type": "default",
+    "type": "default"
+  },
+  "rope_theta": 1000000.0,
+  "sliding_window": 32768,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.50.0",
+  "use_cache": false,
+  "use_geometry_encoder": true,
+  "use_sliding_window": false,
+  "video_token_id": 151656,
+  "vision_config": {
+    "depth": 32,
+    "fullatt_block_indexes": [
+      7,
+      15,
+      23,
+      31
+    ],
+    "hidden_act": "silu",
+    "hidden_size": 1280,
+    "in_channels": 3,
+    "in_chans": 3,
+    "intermediate_size": 3420,
+    "model_type": "qwen2_5_vl",
+    "num_heads": 16,
+    "out_hidden_size": 2048,
+    "patch_size": 14,
+    "spatial_merge_size": 2,
+    "spatial_patch_size": 14,
+    "temporal_patch_size": 2,
+    "tokens_per_second": 2,
+    "torch_dtype": "bfloat16",
+    "window_size": 112
+  },
+  "vision_end_token_id": 151653,
+  "vision_language_fusion_layers": null,
+  "vision_start_token_id": 151652,
+  "vision_token_id": 151654,
+  "vocab_size": 151936
+}
+
+Loading datasets: [{'annotation_path': 'data/train/spar_234k.json', 'data_path': 'data/media', 'tag': '3d', 'sampling_rate': 0.6, 'dataset_name': 'spar_234k'}, {'annotation_path': 'data/train/llava_hound_64k.json', 'data_path': 'data/media', 'tag': '2d', 'sampling_rate': 0.6, 'dataset_name': 'llava_hound_64k'}, {'annotation_path': 'data/vlm3r/annotations/vsibench_train/merged_qa_scannet_train.json', 'data_path': 'data/vlm3r/media', 'tag': '3d', 'sampling_rate': 0.6, 'dataset_name': 'vlm3r_scannet'}, {'annotation_path': 'data/vsi_590k/annotations/vsi_appearance_order_vsibench_scannet.json', 'data_path': 'data/vsi_590k/media', 'tag': '3d', 'sampling_rate': 0.5, 'dataset_name': 'vsi_appr_order'}]
+Qwen2_5_VLConfig {
+  "_attn_implementation_autoset": true,
+  "architectures": [
+    "Qwen2_5_VLForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "feature_fusion_method": "add",
+  "fusion_num_layers": 1,
+  "geometry_encoder_layers": [
+    21
+  ],
+  "geometry_encoder_type": "vggt",
+  "geometry_fusion_layers": null,
+  "geometry_merger_type": "mlp",
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "image_token_id": 151655,
+  "include_camera_token": false,
+  "initializer_range": 0.02,
+  "intermediate_size": 11008,
+  "max_position_embeddings": 128000,
+  "max_window_layers": 70,
+  "model_type": "qwen2_5_vl",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 36,
+  "num_key_value_heads": 2,
+  "pos_encoding_type": "none",
+  "reference_frame": "first",
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "mrope_section": [
+      16,
+      24,
+      24
+    ],
+    "rope_type": "default",
+    "type": "default"
+  },
+  "rope_theta": 1000000.0,
+  "sliding_window": 32768,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.50.0",
+  "use_cache": false,
+  "use_geometry_encoder": true,
+  "use_sliding_window": false,
+  "video_token_id": 151656,
+  "vision_config": {
+    "depth": 32,
+    "fullatt_block_indexes": [
+      7,
+      15,
+      23,
+      31
+    ],
+    "hidden_act": "silu",
+    "hidden_size": 1280,
+    "in_channels": 3,
+    "in_chans": 3,
+    "intermediate_size": 3420,
+    "model_type": "qwen2_5_vl",
+    "num_heads": 16,
+    "out_hidden_size": 2048,
+    "patch_size": 14,
+    "spatial_merge_size": 2,
+    "spatial_patch_size": 14,
+    "temporal_patch_size": 2,
+    "tokens_per_second": 2,
+    "torch_dtype": "bfloat16",
+    "window_size": 112
+  },
+  "vision_end_token_id": 151653,
+  "vision_language_fusion_layers": null,
+  "vision_start_token_id": 151652,
+  "vision_token_id": 151654,
+  "vocab_size": 151936
+}
+
+Loading datasets: [{'annotation_path': 'data/train/spar_234k.json', 'data_path': 'data/media', 'tag': '3d', 'sampling_rate': 0.6, 'dataset_name': 'spar_234k'}, {'annotation_path': 'data/train/llava_hound_64k.json', 'data_path': 'data/media', 'tag': '2d', 'sampling_rate': 0.6, 'dataset_name': 'llava_hound_64k'}, {'annotation_path': 'data/vlm3r/annotations/vsibench_train/merged_qa_scannet_train.json', 'data_path': 'data/vlm3r/media', 'tag': '3d', 'sampling_rate': 0.6, 'dataset_name': 'vlm3r_scannet'}, {'annotation_path': 'data/vsi_590k/annotations/vsi_appearance_order_vsibench_scannet.json', 'data_path': 'data/vsi_590k/media', 'tag': '3d', 'sampling_rate': 0.5, 'dataset_name': 'vsi_appr_order'}]
+Qwen2_5_VLConfig {
+  "_attn_implementation_autoset": true,
+  "architectures": [
+    "Qwen2_5_VLForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "feature_fusion_method": "add",
+  "fusion_num_layers": 1,
+  "geometry_encoder_layers": [
+    21
+  ],
+  "geometry_encoder_type": "vggt",
+  "geometry_fusion_layers": null,
+  "geometry_merger_type": "mlp",
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "image_token_id": 151655,
+  "include_camera_token": false,
+  "initializer_range": 0.02,
+  "intermediate_size": 11008,
+  "max_position_embeddings": 128000,
+  "max_window_layers": 70,
+  "model_type": "qwen2_5_vl",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 36,
+  "num_key_value_heads": 2,
+  "pos_encoding_type": "none",
+  "reference_frame": "first",
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "mrope_section": [
+      16,
+      24,
+      24
+    ],
+    "rope_type": "default",
+    "type": "default"
+  },
+  "rope_theta": 1000000.0,
+  "sliding_window": 32768,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.50.0",
+  "use_cache": false,
+  "use_geometry_encoder": true,
+  "use_sliding_window": false,
+  "video_token_id": 151656,
+  "vision_config": {
+    "depth": 32,
+    "fullatt_block_indexes": [
+      7,
+      15,
+      23,
+      31
+    ],
+    "hidden_act": "silu",
+    "hidden_size": 1280,
+    "in_channels": 3,
+    "in_chans": 3,
+    "intermediate_size": 3420,
+    "model_type": "qwen2_5_vl",
+    "num_heads": 16,
+    "out_hidden_size": 2048,
+    "patch_size": 14,
+    "spatial_merge_size": 2,
+    "spatial_patch_size": 14,
+    "temporal_patch_size": 2,
+    "tokens_per_second": 2,
+    "torch_dtype": "bfloat16",
+    "window_size": 112
+  },
+  "vision_end_token_id": 151653,
+  "vision_language_fusion_layers": null,
+  "vision_start_token_id": 151652,
+  "vision_token_id": 151654,
+  "vocab_size": 151936
+}
+
+Loading datasets: [{'annotation_path': 'data/train/spar_234k.json', 'data_path': 'data/media', 'tag': '3d', 'sampling_rate': 0.6, 'dataset_name': 'spar_234k'}, {'annotation_path': 'data/train/llava_hound_64k.json', 'data_path': 'data/media', 'tag': '2d', 'sampling_rate': 0.6, 'dataset_name': 'llava_hound_64k'}, {'annotation_path': 'data/vlm3r/annotations/vsibench_train/merged_qa_scannet_train.json', 'data_path': 'data/vlm3r/media', 'tag': '3d', 'sampling_rate': 0.6, 'dataset_name': 'vlm3r_scannet'}, {'annotation_path': 'data/vsi_590k/annotations/vsi_appearance_order_vsibench_scannet.json', 'data_path': 'data/vsi_590k/media', 'tag': '3d', 'sampling_rate': 0.5, 'dataset_name': 'vsi_appr_order'}]
+Vision Module - Attention Blocks:
+Trainable Block Indices: None
+Non-Trainable Block Indices: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31]
+Merger Module Trainable: False
+LLM Module - Embed Tokens Trainable: True
+LLM Module - Trainable Layer Indices: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35]
+LLM Module - Non-Trainable Layer Indices: None
+Qwen2_5_VLConfig {
+  "_attn_implementation_autoset": true,
+  "architectures": [
+    "Qwen2_5_VLForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "feature_fusion_method": "add",
+  "fusion_num_layers": 1,
+  "geometry_encoder_layers": [
+    21
+  ],
+  "geometry_encoder_type": "vggt",
+  "geometry_fusion_layers": null,
+  "geometry_merger_type": "mlp",
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "image_token_id": 151655,
+  "include_camera_token": false,
+  "initializer_range": 0.02,
+  "intermediate_size": 11008,
+  "max_position_embeddings": 128000,
+  "max_window_layers": 70,
+  "model_type": "qwen2_5_vl",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 36,
+  "num_key_value_heads": 2,
+  "pos_encoding_type": "none",
+  "reference_frame": "first",
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "mrope_section": [
+      16,
+      24,
+      24
+    ],
+    "rope_type": "default",
+    "type": "default"
+  },
+  "rope_theta": 1000000.0,
+  "sliding_window": 32768,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.50.0",
+  "use_cache": false,
+  "use_geometry_encoder": true,
+  "use_sliding_window": false,
+  "video_token_id": 151656,
+  "vision_config": {
+    "depth": 32,
+    "fullatt_block_indexes": [
+      7,
+      15,
+      23,
+      31
+    ],
+    "hidden_act": "silu",
+    "hidden_size": 1280,
+    "in_channels": 3,
+    "in_chans": 3,
+    "intermediate_size": 3420,
+    "model_type": "qwen2_5_vl",
+    "num_heads": 16,
+    "out_hidden_size": 2048,
+    "patch_size": 14,
+    "spatial_merge_size": 2,
+    "spatial_patch_size": 14,
+    "temporal_patch_size": 2,
+    "tokens_per_second": 2,
+    "torch_dtype": "bfloat16",
+    "window_size": 112
+  },
+  "vision_end_token_id": 151653,
+  "vision_language_fusion_layers": null,
+  "vision_start_token_id": 151652,
+  "vision_token_id": 151654,
+  "vocab_size": 151936
+}
+
+Loading datasets: [{'annotation_path': 'data/train/spar_234k.json', 'data_path': 'data/media', 'tag': '3d', 'sampling_rate': 0.6, 'dataset_name': 'spar_234k'}, {'annotation_path': 'data/train/llava_hound_64k.json', 'data_path': 'data/media', 'tag': '2d', 'sampling_rate': 0.6, 'dataset_name': 'llava_hound_64k'}, {'annotation_path': 'data/vlm3r/annotations/vsibench_train/merged_qa_scannet_train.json', 'data_path': 'data/vlm3r/media', 'tag': '3d', 'sampling_rate': 0.6, 'dataset_name': 'vlm3r_scannet'}, {'annotation_path': 'data/vsi_590k/annotations/vsi_appearance_order_vsibench_scannet.json', 'data_path': 'data/vsi_590k/media', 'tag': '3d', 'sampling_rate': 0.5, 'dataset_name': 'vsi_appr_order'}]
+sampling 140566 examples from dataset {'annotation_path': 'data/train/spar_234k.json', 'data_path': 'data/media', 'tag': '3d', 'sampling_rate': 0.6, 'dataset_name': 'spar_234k'}
+sampling 140566 examples from dataset {'annotation_path': 'data/train/spar_234k.json', 'data_path': 'data/media', 'tag': '3d', 'sampling_rate': 0.6, 'dataset_name': 'spar_234k'}
+sampling 140566 examples from dataset {'annotation_path': 'data/train/spar_234k.json', 'data_path': 'data/media', 'tag': '3d', 'sampling_rate': 0.6, 'dataset_name': 'spar_234k'}
+sampling 140566 examples from dataset {'annotation_path': 'data/train/spar_234k.json', 'data_path': 'data/media', 'tag': '3d', 'sampling_rate': 0.6, 'dataset_name': 'spar_234k'}
+sampling 140566 examples from dataset {'annotation_path': 'data/train/spar_234k.json', 'data_path': 'data/media', 'tag': '3d', 'sampling_rate': 0.6, 'dataset_name': 'spar_234k'}
+sampling 140566 examples from dataset {'annotation_path': 'data/train/spar_234k.json', 'data_path': 'data/media', 'tag': '3d', 'sampling_rate': 0.6, 'dataset_name': 'spar_234k'}
+sampling 38250 examples from dataset {'annotation_path': 'data/train/llava_hound_64k.json', 'data_path': 'data/media', 'tag': '2d', 'sampling_rate': 0.6, 'dataset_name': 'llava_hound_64k'}
+sampling 38250 examples from dataset {'annotation_path': 'data/train/llava_hound_64k.json', 'data_path': 'data/media', 'tag': '2d', 'sampling_rate': 0.6, 'dataset_name': 'llava_hound_64k'}
+sampling 38250 examples from dataset {'annotation_path': 'data/train/llava_hound_64k.json', 'data_path': 'data/media', 'tag': '2d', 'sampling_rate': 0.6, 'dataset_name': 'llava_hound_64k'}
+sampling 38250 examples from dataset {'annotation_path': 'data/train/llava_hound_64k.json', 'data_path': 'data/media', 'tag': '2d', 'sampling_rate': 0.6, 'dataset_name': 'llava_hound_64k'}
+sampling 38250 examples from dataset {'annotation_path': 'data/train/llava_hound_64k.json', 'data_path': 'data/media', 'tag': '2d', 'sampling_rate': 0.6, 'dataset_name': 'llava_hound_64k'}
+sampling 38250 examples from dataset {'annotation_path': 'data/train/llava_hound_64k.json', 'data_path': 'data/media', 'tag': '2d', 'sampling_rate': 0.6, 'dataset_name': 'llava_hound_64k'}
+sampling 31067 examples from dataset {'annotation_path': 'data/vlm3r/annotations/vsibench_train/merged_qa_scannet_train.json', 'data_path': 'data/vlm3r/media', 'tag': '3d', 'sampling_rate': 0.6, 'dataset_name': 'vlm3r_scannet'}
+sampling 31067 examples from dataset {'annotation_path': 'data/vlm3r/annotations/vsibench_train/merged_qa_scannet_train.json', 'data_path': 'data/vlm3r/media', 'tag': '3d', 'sampling_rate': 0.6, 'dataset_name': 'vlm3r_scannet'}
+sampling 31067 examples from dataset {'annotation_path': 'data/vlm3r/annotations/vsibench_train/merged_qa_scannet_train.json', 'data_path': 'data/vlm3r/media', 'tag': '3d', 'sampling_rate': 0.6, 'dataset_name': 'vlm3r_scannet'}
+sampling 31067 examples from dataset {'annotation_path': 'data/vlm3r/annotations/vsibench_train/merged_qa_scannet_train.json', 'data_path': 'data/vlm3r/media', 'tag': '3d', 'sampling_rate': 0.6, 'dataset_name': 'vlm3r_scannet'}
+sampling 31067 examples from dataset {'annotation_path': 'data/vlm3r/annotations/vsibench_train/merged_qa_scannet_train.json', 'data_path': 'data/vlm3r/media', 'tag': '3d', 'sampling_rate': 0.6, 'dataset_name': 'vlm3r_scannet'}
+sampling 31067 examples from dataset {'annotation_path': 'data/vlm3r/annotations/vsibench_train/merged_qa_scannet_train.json', 'data_path': 'data/vlm3r/media', 'tag': '3d', 'sampling_rate': 0.6, 'dataset_name': 'vlm3r_scannet'}
+sampling 1909 examples from dataset {'annotation_path': 'data/vsi_590k/annotations/vsi_appearance_order_vsibench_scannet.json', 'data_path': 'data/vsi_590k/media', 'tag': '3d', 'sampling_rate': 0.5, 'dataset_name': 'vsi_appr_order'}
+Total training samples: 211792
+sampling 1909 examples from dataset {'annotation_path': 'data/vsi_590k/annotations/vsi_appearance_order_vsibench_scannet.json', 'data_path': 'data/vsi_590k/media', 'tag': '3d', 'sampling_rate': 0.5, 'dataset_name': 'vsi_appr_order'}
+Total training samples: 211792
+sampling 1909 examples from dataset {'annotation_path': 'data/vsi_590k/annotations/vsi_appearance_order_vsibench_scannet.json', 'data_path': 'data/vsi_590k/media', 'tag': '3d', 'sampling_rate': 0.5, 'dataset_name': 'vsi_appr_order'}
+Total training samples: 211792
+sampling 1909 examples from dataset {'annotation_path': 'data/vsi_590k/annotations/vsi_appearance_order_vsibench_scannet.json', 'data_path': 'data/vsi_590k/media', 'tag': '3d', 'sampling_rate': 0.5, 'dataset_name': 'vsi_appr_order'}
+Total training samples: 211792
+sampling 1909 examples from dataset {'annotation_path': 'data/vsi_590k/annotations/vsi_appearance_order_vsibench_scannet.json', 'data_path': 'data/vsi_590k/media', 'tag': '3d', 'sampling_rate': 0.5, 'dataset_name': 'vsi_appr_order'}
+Total training samples: 211792
+sampling 1909 examples from dataset {'annotation_path': 'data/vsi_590k/annotations/vsi_appearance_order_vsibench_scannet.json', 'data_path': 'data/vsi_590k/media', 'tag': '3d', 'sampling_rate': 0.5, 'dataset_name': 'vsi_appr_order'}
+Total training samples: 211792
+Formatting inputs...Skip in lazy mode
+Formatting inputs...Skip in lazy mode
+Formatting inputs...Skip in lazy mode
+Formatting inputs...Skip in lazy mode
+Formatting inputs...Skip in lazy mode
+Formatting inputs...Skip in lazy mode
+  0%|          | 0/3529 [00:00<?, ?it/s]/usr/local/lib/python3.12/dist-packages/torch/utils/checkpoint.py:85: UserWarning: None of the inputs have requires_grad=True. Gradients will be None
+  warnings.warn(
+/usr/local/lib/python3.12/dist-packages/torch/utils/checkpoint.py:85: UserWarning: None of the inputs have requires_grad=True. Gradients will be None
+  warnings.warn(
+/usr/local/lib/python3.12/dist-packages/torch/utils/checkpoint.py:85: UserWarning: None of the inputs have requires_grad=True. Gradients will be None
+  warnings.warn(
+/usr/local/lib/python3.12/dist-packages/torch/utils/checkpoint.py:85: UserWarning: None of the inputs have requires_grad=True. Gradients will be None
+  warnings.warn(
+/workspace/src/qwen_vl/model/geometry_encoders/vggt_encoder.py:68: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with torch.cuda.amp.autocast(dtype=dtype):
+/usr/local/lib/python3.12/dist-packages/torch/utils/checkpoint.py:85: UserWarning: None of the inputs have requires_grad=True. Gradients will be None
+  warnings.warn(
+/usr/local/lib/python3.12/dist-packages/torch/utils/checkpoint.py:85: UserWarning: None of the inputs have requires_grad=True. Gradients will be None
+  warnings.warn(
+/usr/local/lib/python3.12/dist-packages/torch/utils/checkpoint.py:85: UserWarning: None of the inputs have requires_grad=True. Gradients will be None
+  warnings.warn(
+/usr/local/lib/python3.12/dist-packages/torch/utils/checkpoint.py:85: UserWarning: None of the inputs have requires_grad=True. Gradients will be None
+  warnings.warn(
+/workspace/src/qwen_vl/model/geometry_encoders/vggt_encoder.py:68: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with torch.cuda.amp.autocast(dtype=dtype):
+/workspace/src/qwen_vl/model/geometry_encoders/vggt_encoder.py:68: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with torch.cuda.amp.autocast(dtype=dtype):
+/usr/local/lib/python3.12/dist-packages/torch/utils/checkpoint.py:85: UserWarning: None of the inputs have requires_grad=True. Gradients will be None
+  warnings.warn(
+/usr/local/lib/python3.12/dist-packages/torch/utils/checkpoint.py:85: UserWarning: None of the inputs have requires_grad=True. Gradients will be None
+  warnings.warn(
+/usr/local/lib/python3.12/dist-packages/torch/utils/checkpoint.py:85: UserWarning: None of the inputs have requires_grad=True. Gradients will be None
+  warnings.warn(
+/workspace/src/qwen_vl/model/geometry_encoders/vggt_encoder.py:68: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with torch.cuda.amp.autocast(dtype=dtype):
+/workspace/src/qwen_vl/model/geometry_encoders/vggt_encoder.py:68: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with torch.cuda.amp.autocast(dtype=dtype):
+/usr/local/lib/python3.12/dist-packages/torch/utils/checkpoint.py:85: UserWarning: None of the inputs have requires_grad=True. Gradients will be None
+  warnings.warn(
+/workspace/src/qwen_vl/model/geometry_encoders/vggt_encoder.py:68: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with torch.cuda.amp.autocast(dtype=dtype):
+  0%|          | 1/3529 [00:26<25:33:25, 26.08s/it]  0%|          | 2/3529 [00:48<23:39:46, 24.15s/it]  0%|          | 3/3529 [01:11<22:59:23, 23.47s/it]  0%|          | 4/3529 [01:36<23:31:36, 24.03s/it]  0%|          | 5/3529 [01:58<22:54:33, 23.40s/it]  0%|          | 6/3529 [02:21<22:33:53, 23.06s/it]  0%|          | 7/3529 [02:44<22:31:28, 23.02s/it]  0%|          | 8/3529 [03:09<23:23:05, 23.91s/it]  0%|          | 9/3529 [03:32<23:00:03, 23.52s/it]  0%|          | 10/3529 [03:55<22:43:38, 23.25s/it]                                                    {'loss': 17.5632, 'grad_norm': 174.56146240234375, 'learning_rate': 9.433962264150944e-07, 'epoch': 0.0}
+  0%|          | 10/3529 [03:55<22:43:38, 23.25s/it]  0%|          | 11/3529 [04:16<22:14:40, 22.76s/it]  0%|          | 12/3529 [04:38<21:52:30, 22.39s/it]  0%|          | 13/3529 [05:03<22:37:48, 23.17s/it]  0%|          | 14/3529 [05:27<23:00:59, 23.57s/it]  0%|          | 15/3529 [05:50<22:40:12, 23.22s/it]  0%|          | 16/3529 [06:12<22:29:34, 23.05s/it]  0%|          | 17/3529 [06:35<22:18:43, 22.87s/it]  1%|          | 18/3529 [07:00<22:59:04, 23.57s/it]  1%|          | 19/3529 [07:23<22:46:16, 23.36s/it]  1%|          | 20/3529 [07:46<22:32:53, 23.13s/it]                                                    {'loss': 16.5212, 'grad_norm': 99.76522064208984, 'learning_rate': 1.8867924528301889e-06, 'epoch': 0.01}
+  1%|          | 20/3529 [07:46<22:32:53, 23.13s/it]  1%|          | 21/3529 [08:08<22:26:30, 23.03s/it]  1%|          | 22/3529 [08:31<22:18:31, 22.90s/it]  1%|          | 23/3529 [08:56<22:54:46, 23.53s/it]  1%|          | 24/3529 [09:18<22:29:06, 23.09s/it]  1%|          | 25/3529 [09:41<22:28:22, 23.09s/it]  1%|          | 26/3529 [10:04<22:19:49, 22.95s/it]  1%|          | 27/3529 [10:25<21:51:50, 22.48s/it]  1%|          | 28/3529 [10:46<21:25:53, 22.04s/it]  1%|          | 29/3529 [11:09<21:44:04, 22.36s/it]  1%|          | 30/3529 [11:32<21:50:52, 22.48s/it]                                                    {'loss': 14.66, 'grad_norm': 61.843570709228516, 'learning_rate': 2.830188679245283e-06, 'epoch': 0.01}
+  1%|          | 30/3529 [11:32<21:50:52, 22.48s/it]  1%|          | 31/3529 [11:57<22:36:07, 23.26s/it]  1%|          | 32/3529 [12:20<22:24:01, 23.06s/it]  1%|          | 33/3529 [12:46<23:15:26, 23.95s/it]  1%|          | 34/3529 [13:10<23:20:59, 24.05s/it]  1%|          | 35/3529 [13:33<22:56:41, 23.64s/it]  1%|          | 36/3529 [13:55<22:33:33, 23.25s/it]  1%|          | 37/3529 [14:18<22:26:30, 23.14s/it]  1%|          | 38/3529 [14:39<21:49:16, 22.50s/it]  1%|          | 39/3529 [15:01<21:42:36, 22.39s/it]  1%|          | 40/3529 [15:24<21:57:39, 22.66s/it]                                                    {'loss': 12.8877, 'grad_norm': 58.26314926147461, 'learning_rate': 3.7735849056603777e-06, 'epoch': 0.01}
+  1%|          | 40/3529 [15:24<21:57:39, 22.66s/it]  1%|          | 41/3529 [15:46<21:43:53, 22.43s/it]  1%|          | 42/3529 [16:06<20:52:12, 21.55s/it]  1%|          | 43/3529 [16:27<20:48:50, 21.49s/it]  1%|          | 44/3529 [16:48<20:41:49, 21.38s/it]  1%|▏         | 45/3529 [17:10<20:42:47, 21.40s/it]  1%|▏         | 46/3529 [17:31<20:37:22, 21.32s/it]  1%|▏         | 47/3529 [17:52<20:31:34, 21.22s/it]  1%|▏         | 48/3529 [18:14<20:54:07, 21.62s/it]  1%|▏         | 49/3529 [18:39<21:50:03, 22.59s/it]  1%|▏         | 50/3529 [18:59<21:10:29, 21.91s/it]                                                    {'loss': 12.6102, 'grad_norm': 64.67306518554688, 'learning_rate': 4.716981132075472e-06, 'epoch': 0.01}
+  1%|▏         | 50/3529 [18:59<21:10:29, 21.91s/it]  1%|▏         | 51/3529 [19:22<21:29:07, 22.24s/it]  1%|▏         | 52/3529 [19:47<22:13:38, 23.01s/it]  2%|▏         | 53/3529 [20:10<22:08:09, 22.93s/it]  2%|▏         | 54/3529 [20:34<22:33:06, 23.36s/it]  2%|▏         | 55/3529 [20:57<22:16:35, 23.08s/it]  2%|▏         | 56/3529 [21:17<21:23:30, 22.17s/it]  2%|▏         | 57/3529 [21:40<21:35:48, 22.39s/it]  2%|▏         | 58/3529 [22:02<21:39:05, 22.46s/it]  2%|▏         | 59/3529 [22:25<21:39:15, 22.47s/it]  2%|▏         | 60/3529 [22:47<21:38:18, 22.46s/it]                                                    {'loss': 10.3169, 'grad_norm': 40.95338439941406, 'learning_rate': 5.660377358490566e-06, 'epoch': 0.02}
+  2%|▏         | 60/3529 [22:47<21:38:18, 22.46s/it]  2%|▏         | 61/3529 [23:10<21:42:33, 22.54s/it]  2%|▏         | 62/3529 [23:31<21:19:05, 22.14s/it]  2%|▏         | 63/3529 [23:53<21:07:58, 21.95s/it]  2%|▏         | 64/3529 [24:13<20:34:43, 21.38s/it]  2%|▏         | 65/3529 [24:35<20:49:45, 21.65s/it]  2%|▏         | 66/3529 [24:57<20:53:39, 21.72s/it]  2%|▏         | 67/3529 [25:17<20:24:57, 21.23s/it]  2%|▏         | 68/3529 [25:38<20:18:54, 21.13s/it]  2%|▏         | 69/3529 [26:01<20:44:10, 21.58s/it]  2%|▏         | 70/3529 [26:23<21:00:50, 21.87s/it]                                                    {'loss': 10.4793, 'grad_norm': 59.99547576904297, 'learning_rate': 6.60377358490566e-06, 'epoch': 0.02}
+  2%|▏         | 70/3529 [26:23<21:00:50, 21.87s/it]  2%|▏         | 71/3529 [26:45<21:08:12, 22.00s/it]  2%|▏         | 72/3529 [27:04<20:12:06, 21.04s/it]  2%|▏         | 73/3529 [27:25<20:14:58, 21.09s/it]  2%|▏         | 74/3529 [27:50<21:09:03, 22.04s/it]  2%|▏         | 75/3529 [28:11<21:00:19, 21.89s/it]  2%|▏         | 76/3529 [28:34<21:10:41, 22.08s/it]  2%|▏         | 77/3529 [28:59<22:02:50, 22.99s/it]  2%|▏         | 78/3529 [29:18<20:50:38, 21.74s/it]  2%|▏         | 79/3529 [29:39<20:43:45, 21.63s/it]  2%|▏         | 80/3529 [30:01<20:54:17, 21.82s/it]                                                    {'loss': 10.2298, 'grad_norm': 69.4089584350586, 'learning_rate': 7.5471698113207555e-06, 'epoch': 0.02}
+  2%|▏         | 80/3529 [30:01<20:54:17, 21.82s/it]  2%|▏         | 81/3529 [30:26<21:45:09, 22.71s/it]  2%|▏         | 82/3529 [30:48<21:35:07, 22.54s/it]  2%|▏         | 83/3529 [31:11<21:34:31, 22.54s/it]  2%|▏         | 84/3529 [31:30<20:31:18, 21.45s/it]  2%|▏         | 85/3529 [31:51<20:26:21, 21.37s/it]  2%|▏         | 86/3529 [32:11<20:02:35, 20.96s/it]  2%|▏         | 87/3529 [32:31<19:48:18, 20.71s/it]  2%|▏         | 88/3529 [32:54<20:20:26, 21.28s/it]  3%|▎         | 89/3529 [33:16<20:35:44, 21.55s/it]  3%|▎         | 90/3529 [33:38<20:54:25, 21.89s/it]                                                    {'loss': 8.5679, 'grad_norm': 38.2027702331543, 'learning_rate': 8.49056603773585e-06, 'epoch': 0.03}
+  3%|▎         | 90/3529 [33:38<20:54:25, 21.89s/it]  3%|▎         | 91/3529 [34:01<21:08:42, 22.14s/it]  3%|▎         | 92/3529 [34:20<20:17:47, 21.26s/it]  3%|▎         | 93/3529 [34:41<20:14:00, 21.20s/it]  3%|▎         | 94/3529 [35:04<20:37:03, 21.61s/it]  3%|▎         | 95/3529 [35:26<20:51:54, 21.87s/it]  3%|▎         | 96/3529 [35:49<21:03:23, 22.08s/it]  3%|▎         | 97/3529 [36:10<20:49:38, 21.85s/it]  3%|▎         | 98/3529 [36:31<20:31:48, 21.54s/it]  3%|▎         | 99/3529 [36:51<19:59:19, 20.98s/it]  3%|▎         | 100/3529 [37:11<19:39:25, 20.64s/it]                                                     {'loss': 8.6834, 'grad_norm': 41.05867004394531, 'learning_rate': 9.433962264150944e-06, 'epoch': 0.03}
+  3%|▎         | 100/3529 [37:11<19:39:25, 20.64s/it]  3%|▎         | 101/3529 [37:33<20:12:19, 21.22s/it]  3%|▎         | 102/3529 [37:56<20:34:54, 21.62s/it]  3%|▎         | 103/3529 [38:18<20:46:17, 21.83s/it]  3%|▎         | 104/3529 [38:41<20:59:05, 22.06s/it]  3%|▎         | 105/3529 [39:06<21:45:24, 22.88s/it]  3%|▎         | 106/3529 [39:28<21:38:34, 22.76s/it]  3%|▎         | 107/3529 [39:49<21:06:44, 22.21s/it]  3%|▎         | 108/3529 [40:10<20:42:41, 21.80s/it]  3%|▎         | 109/3529 [40:32<20:51:36, 21.96s/it]  3%|▎         | 110/3529 [40:55<20:59:38, 22.11s/it]                                                     {'loss': 7.8071, 'grad_norm': 45.03547286987305, 'learning_rate': 9.999966306552455e-06, 'epoch': 0.03}
+  3%|▎         | 110/3529 [40:55<20:59:38, 22.11s/it]  3%|▎         | 111/3529 [41:17<21:09:00, 22.28s/it]  3%|▎         | 112/3529 [41:39<21:06:29, 22.24s/it]  3%|▎         | 113/3529 [42:00<20:30:13, 21.61s/it]  3%|▎         | 114/3529 [42:22<20:43:58, 21.86s/it]  3%|▎         | 115/3529 [42:44<20:52:15, 22.01s/it]  3%|▎         | 116/3529 [43:06<20:44:21, 21.88s/it]  3%|▎         | 117/3529 [43:26<20:13:54, 21.35s/it]  3%|▎         | 118/3529 [43:47<20:11:35, 21.31s/it]  3%|▎         | 119/3529 [44:10<20:37:27, 21.77s/it]  3%|▎         | 120/3529 [44:33<20:48:50, 21.98s/it]                                                     {'loss': 8.2945, 'grad_norm': 43.03623580932617, 'learning_rate': 9.999587260482597e-06, 'epoch': 0.03}
+  3%|▎         | 120/3529 [44:33<20:48:50, 21.98s/it]  3%|▎         | 121/3529 [44:55<21:02:25, 22.23s/it]  3%|▎         | 122/3529 [45:17<20:44:15, 21.91s/it]  3%|▎         | 123/3529 [45:38<20:36:58, 21.79s/it]  4%|▎         | 124/3529 [46:01<20:50:29, 22.03s/it]  4%|▎         | 125/3529 [46:22<20:39:08, 21.84s/it]  4%|▎         | 126/3529 [46:43<20:25:12, 21.60s/it]  4%|▎         | 127/3529 [47:05<20:38:41, 21.85s/it]  4%|▎         | 128/3529 [47:28<20:47:47, 22.01s/it]  4%|▎         | 129/3529 [47:50<20:54:09, 22.13s/it]  4%|▎         | 130/3529 [48:12<20:54:43, 22.15s/it]                                                     {'loss': 8.0273, 'grad_norm': 37.273048400878906, 'learning_rate': 9.998787083568112e-06, 'epoch': 0.04}
+  4%|▎         | 130/3529 [48:12<20:54:43, 22.15s/it]  4%|▎         | 131/3529 [48:35<20:52:57, 22.12s/it]  4%|▎         | 132/3529 [49:00<21:49:27, 23.13s/it]  4%|▍         | 133/3529 [49:34<24:45:27, 26.24s/it]  4%|▍         | 134/3529 [51:33<51:05:44, 54.18s/it]  4%|▍         | 135/3529 [51:57<42:39:10, 45.24s/it]  4%|▍         | 136/3529 [52:22<36:58:05, 39.22s/it]  4%|▍         | 137/3529 [52:49<33:27:44, 35.51s/it]  4%|▍         | 138/3529 [53:13<30:04:59, 31.94s/it]  4%|▍         | 139/3529 [53:36<27:35:28, 29.30s/it]  4%|▍         | 140/3529 [53:58<25:25:57, 27.02s/it]                                                     {'loss': 7.1597, 'grad_norm': 55.94173049926758, 'learning_rate': 9.997565843210401e-06, 'epoch': 0.04}
+  4%|▍         | 140/3529 [53:58<25:25:57, 27.02s/it]  4%|▍         | 141/3529 [54:19<23:55:39, 25.42s/it]  4%|▍         | 142/3529 [54:44<23:33:35, 25.04s/it]  4%|▍         | 143/3529 [55:07<23:10:02, 24.63s/it]  4%|▍         | 144/3529 [55:30<22:38:26, 24.08s/it]  4%|▍         | 145/3529 [55:49<21:03:49, 22.41s/it]  4%|▍         | 146/3529 [56:10<20:46:10, 22.10s/it]  4%|▍         | 147/3529 [56:33<20:55:50, 22.28s/it]  4%|▍         | 148/3529 [56:55<21:04:13, 22.44s/it]  4%|▍         | 149/3529 [57:18<21:00:37, 22.38s/it]  4%|▍         | 150/3529 [57:40<20:52:14, 22.24s/it]                                                     {'loss': 7.2908, 'grad_norm': 50.30799102783203, 'learning_rate': 9.995923642278351e-06, 'epoch': 0.04}
+  4%|▍         | 150/3529 [57:40<20:52:14, 22.24s/it]  4%|▍         | 151/3529 [58:05<21:39:52, 23.09s/it]  4%|▍         | 152/3529 [58:25<20:52:49, 22.26s/it]  4%|▍         | 153/3529 [58:48<20:56:38, 22.33s/it]  4%|▍         | 154/3529 [59:10<20:54:30, 22.30s/it]  4%|▍         | 155/3529 [59:30<20:16:09, 21.63s/it]  4%|▍         | 156/3529 [59:50<19:49:47, 21.16s/it]  4%|▍         | 157/3529 [1:00:12<20:11:55, 21.56s/it]  4%|▍         | 158/3529 [1:00:33<19:50:47, 21.19s/it]  5%|▍         | 159/3529 [1:00:55<20:07:52, 21.51s/it]  5%|▍         | 160/3529 [1:01:16<20:03:16, 21.43s/it]                                                       {'loss': 5.9006, 'grad_norm': 53.113243103027344, 'learning_rate': 9.993860619099673e-06, 'epoch': 0.05}
+  5%|▍         | 160/3529 [1:01:16<20:03:16, 21.43s/it]  5%|▍         | 161/3529 [1:01:38<20:01:51, 21.41s/it]  5%|▍         | 162/3529 [1:01:57<19:25:36, 20.77s/it]  5%|▍         | 163/3529 [1:02:18<19:31:19, 20.88s/it]  5%|▍         | 164/3529 [1:02:41<20:04:22, 21.47s/it]  5%|▍         | 165/3529 [1:03:02<19:51:38, 21.25s/it]  5%|▍         | 166/3529 [1:03:22<19:43:58, 21.12s/it]  5%|▍         | 167/3529 [1:03:45<20:06:08, 21.53s/it]  5%|▍         | 168/3529 [1:04:10<21:00:35, 22.50s/it]  5%|▍         | 169/3529 [1:04:31<20:38:26, 22.12s/it]  5%|▍         | 170/3529 [1:04:50<19:53:45, 21.32s/it]                                                       {'loss': 8.8304, 'grad_norm': 51.57769012451172, 'learning_rate': 9.991376947449254e-06, 'epoch': 0.05}
+  5%|▍         | 170/3529 [1:04:50<19:53:45, 21.32s/it]  5%|▍         | 171/3529 [1:05:11<19:49:57, 21.26s/it]  5%|▍         | 172/3529 [1:05:30<19:04:24, 20.45s/it]  5%|▍         | 173/3529 [1:05:51<19:10:24, 20.57s/it]  5%|▍         | 174/3529 [1:06:12<19:22:11, 20.78s/it]  5%|▍         | 175/3529 [1:06:33<19:25:08, 20.84s/it]  5%|▍         | 176/3529 [1:06:56<19:56:38, 21.41s/it]  5%|▌         | 177/3529 [1:07:16<19:35:56, 21.05s/it]  5%|▌         | 178/3529 [1:07:41<20:33:49, 22.09s/it]  5%|▌         | 179/3529 [1:08:03<20:37:26, 22.16s/it]  5%|▌         | 180/3529 [1:08:26<20:47:14, 22.35s/it]                                                       {'loss': 8.6644, 'grad_norm': 38.17790985107422, 'learning_rate': 9.988472836534509e-06, 'epoch': 0.05}
+  5%|▌         | 180/3529 [1:08:26<20:47:14, 22.35s/it]  5%|▌         | 181/3529 [1:08:48<20:49:22, 22.39s/it]  5%|▌         | 182/3529 [1:09:11<20:51:18, 22.43s/it]  5%|▌         | 183/3529 [1:09:33<20:49:21, 22.40s/it]  5%|▌         | 184/3529 [1:09:58<21:29:40, 23.13s/it]  5%|▌         | 185/3529 [1:10:18<20:37:23, 22.20s/it]  5%|▌         | 186/3529 [1:10:41<20:43:23, 22.32s/it]  5%|▌         | 187/3529 [1:11:03<20:51:18, 22.47s/it]  5%|▌         | 188/3529 [1:11:22<19:46:53, 21.31s/it]  5%|▌         | 189/3529 [1:11:43<19:40:39, 21.21s/it]  5%|▌         | 190/3529 [1:12:03<19:13:20, 20.72s/it]                                                       {'loss': 6.6272, 'grad_norm': 34.28203582763672, 'learning_rate': 9.985148530977767e-06, 'epoch': 0.05}
+  5%|▌         | 190/3529 [1:12:03<19:13:20, 20.72s/it]  5%|▌         | 191/3529 [1:12:22<18:45:31, 20.23s/it]  5%|▌         | 192/3529 [1:12:43<19:06:32, 20.62s/it]  5%|▌         | 193/3529 [1:13:02<18:34:50, 20.05s/it]  5%|▌         | 194/3529 [1:13:23<18:47:45, 20.29s/it]  6%|▌         | 195/3529 [1:13:44<19:02:33, 20.56s/it]  6%|▌         | 196/3529 [1:14:05<19:16:08, 20.81s/it]  6%|▌         | 197/3529 [1:14:28<19:43:03, 21.30s/it]  6%|▌         | 198/3529 [1:14:50<20:04:40, 21.70s/it]  6%|▌         | 199/3529 [1:15:13<20:14:13, 21.88s/it]  6%|▌         | 200/3529 [1:15:40<21:47:48, 23.57s/it]                                                       {'loss': 8.2372, 'grad_norm': 34.18405532836914, 'learning_rate': 9.981404310795667e-06, 'epoch': 0.06}
+  6%|▌         | 200/3529 [1:15:40<21:47:48, 23.57s/it]  6%|▌         | 201/3529 [1:16:00<20:52:40, 22.58s/it]  6%|▌         | 202/3529 [1:16:23<20:56:24, 22.66s/it]  6%|▌         | 203/3529 [1:16:46<20:57:25, 22.68s/it]  6%|▌         | 204/3529 [1:17:08<20:47:54, 22.52s/it]  6%|▌         | 205/3529 [1:17:31<20:54:45, 22.65s/it]  6%|▌         | 206/3529 [1:17:54<20:53:55, 22.64s/it]  6%|▌         | 207/3529 [1:18:18<21:27:00, 23.25s/it]  6%|▌         | 208/3529 [1:18:41<21:17:46, 23.09s/it]  6%|▌         | 209/3529 [1:19:03<21:03:09, 22.83s/it]  6%|▌         | 210/3529 [1:19:26<20:56:39, 22.72s/it]                                                       {'loss': 5.3928, 'grad_norm': 40.83757400512695, 'learning_rate': 9.97724049137556e-06, 'epoch': 0.06}
+  6%|▌         | 210/3529 [1:19:26<20:56:39, 22.72s/it]  6%|▌         | 211/3529 [1:19:48<20:48:20, 22.57s/it]  6%|▌         | 212/3529 [1:20:08<20:09:49, 21.88s/it]  6%|▌         | 213/3529 [1:20:31<20:18:18, 22.04s/it]  6%|▌         | 214/3529 [1:20:53<20:24:59, 22.17s/it]  6%|▌         | 215/3529 [1:21:16<20:34:59, 22.36s/it]  6%|▌         | 216/3529 [1:21:35<19:34:30, 21.27s/it]  6%|▌         | 217/3529 [1:21:56<19:31:26, 21.22s/it]  6%|▌         | 218/3529 [1:22:16<19:10:49, 20.85s/it]  6%|▌         | 219/3529 [1:22:38<19:37:40, 21.35s/it]  6%|▌         | 220/3529 [1:23:01<19:57:13, 21.71s/it]                                                       {'loss': 6.5196, 'grad_norm': 36.30077362060547, 'learning_rate': 9.972657423448961e-06, 'epoch': 0.06}
+  6%|▌         | 220/3529 [1:23:01<19:57:13, 21.71s/it]  6%|▋         | 221/3529 [1:23:24<20:12:18, 21.99s/it]  6%|▋         | 222/3529 [1:23:46<20:16:37, 22.07s/it]  6%|▋         | 223/3529 [1:24:11<21:02:14, 22.91s/it]  6%|▋         | 224/3529 [1:24:29<19:49:51, 21.60s/it]  6%|▋         | 225/3529 [1:24:50<19:41:43, 21.46s/it]  6%|▋         | 226/3529 [1:25:12<19:52:07, 21.66s/it]  6%|▋         | 227/3529 [1:25:33<19:36:49, 21.38s/it]  6%|▋         | 228/3529 [1:25:54<19:30:44, 21.28s/it]  6%|▋         | 229/3529 [1:26:19<20:28:53, 22.34s/it]  7%|▋         | 230/3529 [1:26:38<19:27:23, 21.23s/it]                                                       {'loss': 7.1923, 'grad_norm': 38.03015899658203, 'learning_rate': 9.96765549306199e-06, 'epoch': 0.07}
+  7%|▋         | 230/3529 [1:26:38<19:27:23, 21.23s/it]  7%|▋         | 231/3529 [1:26:58<19:05:32, 20.84s/it]  7%|▋         | 232/3529 [1:27:19<19:06:27, 20.86s/it]  7%|▋         | 233/3529 [1:27:41<19:34:14, 21.38s/it]  7%|▋         | 234/3529 [1:28:03<19:50:00, 21.67s/it]  7%|▋         | 235/3529 [1:28:26<19:58:30, 21.83s/it]  7%|▋         | 236/3529 [1:28:48<20:09:10, 22.03s/it]  7%|▋         | 237/3529 [1:29:10<20:05:35, 21.97s/it]  7%|▋         | 238/3529 [1:29:31<19:41:19, 21.54s/it]  7%|▋         | 239/3529 [1:29:55<20:32:33, 22.48s/it]  7%|▋         | 240/3529 [1:30:16<20:11:10, 22.09s/it]                                                       {'loss': 6.9849, 'grad_norm': 42.84525680541992, 'learning_rate': 9.962235121542858e-06, 'epoch': 0.07}
+  7%|▋         | 240/3529 [1:30:16<20:11:10, 22.09s/it]  7%|▋         | 241/3529 [1:30:38<19:57:58, 21.86s/it]  7%|▋         | 242/3529 [1:31:00<20:10:23, 22.09s/it]  7%|▋         | 243/3529 [1:31:21<19:39:44, 21.54s/it]  7%|▋         | 244/3529 [1:31:43<19:54:58, 21.83s/it]  7%|▋         | 245/3529 [1:32:06<20:19:22, 22.28s/it]  7%|▋         | 246/3529 [1:32:28<20:06:43, 22.05s/it]  7%|▋         | 247/3529 [1:32:49<19:46:14, 21.69s/it]  7%|▋         | 248/3529 [1:33:14<20:38:06, 22.64s/it]  7%|▋         | 249/3529 [1:33:36<20:37:08, 22.63s/it]  7%|▋         | 250/3529 [1:33:58<20:30:18, 22.51s/it]                                                       {'loss': 7.0978, 'grad_norm': 34.071800231933594, 'learning_rate': 9.956396765466382e-06, 'epoch': 0.07}
+  7%|▋         | 250/3529 [1:33:58<20:30:18, 22.51s/it]  7%|▋         | 251/3529 [1:34:20<20:10:42, 22.16s/it]  7%|▋         | 252/3529 [1:34:43<20:27:23, 22.47s/it]  7%|▋         | 253/3529 [1:35:05<20:19:05, 22.33s/it]  7%|▋         | 254/3529 [1:35:27<20:14:07, 22.24s/it]  7%|▋         | 255/3529 [1:35:52<20:57:53, 23.05s/it]  7%|▋         | 256/3529 [1:36:10<19:40:55, 21.65s/it]  7%|▋         | 257/3529 [1:36:31<19:29:25, 21.44s/it]  7%|▋         | 258/3529 [1:36:53<19:24:58, 21.37s/it]  7%|▋         | 259/3529 [1:37:13<19:09:38, 21.09s/it]  7%|▋         | 260/3529 [1:37:35<19:30:29, 21.48s/it]                                                       {'loss': 7.5077, 'grad_norm': 37.807029724121094, 'learning_rate': 9.950140916615526e-06, 'epoch': 0.07}
+  7%|▋         | 260/3529 [1:37:35<19:30:29, 21.48s/it]  7%|▋         | 261/3529 [1:37:56<19:22:05, 21.34s/it]  7%|▋         | 262/3529 [1:38:19<19:41:23, 21.70s/it]  7%|▋         | 263/3529 [1:38:40<19:33:31, 21.56s/it]  7%|▋         | 264/3529 [1:39:00<19:11:11, 21.16s/it]  8%|▊         | 265/3529 [1:39:22<19:17:29, 21.28s/it]  8%|▊         | 266/3529 [1:39:47<20:24:03, 22.51s/it]  8%|▊         | 267/3529 [1:40:10<20:26:12, 22.55s/it]  8%|▊         | 268/3529 [1:40:33<20:26:49, 22.57s/it]  8%|▊         | 269/3529 [1:40:55<20:24:00, 22.53s/it]  8%|▊         | 270/3529 [1:41:18<20:24:12, 22.54s/it]                                                       {'loss': 6.6867, 'grad_norm': 36.55296325683594, 'learning_rate': 9.943468101939968e-06, 'epoch': 0.08}
+  8%|▊         | 270/3529 [1:41:18<20:24:12, 22.54s/it]  8%|▊         | 271/3529 [1:41:38<19:57:04, 22.05s/it]  8%|▊         | 272/3529 [1:41:58<19:19:34, 21.36s/it]  8%|▊         | 273/3529 [1:42:19<19:14:31, 21.28s/it]  8%|▊         | 274/3529 [1:42:44<20:11:35, 22.33s/it]  8%|▊         | 275/3529 [1:43:06<19:56:24, 22.06s/it]  8%|▊         | 276/3529 [1:43:27<19:43:36, 21.83s/it]  8%|▊         | 277/3529 [1:43:50<20:07:59, 22.29s/it]  8%|▊         | 278/3529 [1:44:11<19:42:59, 21.83s/it]  8%|▊         | 279/3529 [1:44:33<19:53:57, 22.04s/it]  8%|▊         | 280/3529 [1:44:56<20:03:39, 22.23s/it]                                                       {'loss': 8.5626, 'grad_norm': 31.735977172851562, 'learning_rate': 9.936378883511722e-06, 'epoch': 0.08}
+  8%|▊         | 280/3529 [1:44:56<20:03:39, 22.23s/it]  8%|▊         | 281/3529 [1:45:19<20:17:47, 22.50s/it]  8%|▊         | 282/3529 [1:45:39<19:32:37, 21.67s/it]  8%|▊         | 283/3529 [1:46:00<19:17:38, 21.40s/it]  8%|▊         | 284/3529 [1:46:21<19:08:33, 21.24s/it]  8%|▊         | 285/3529 [1:46:41<18:46:09, 20.83s/it]  8%|▊         | 286/3529 [1:47:00<18:28:40, 20.51s/it]  8%|▊         | 287/3529 [1:47:23<18:58:53, 21.08s/it]  8%|▊         | 288/3529 [1:47:46<19:34:49, 21.75s/it]  8%|▊         | 289/3529 [1:48:07<19:18:31, 21.45s/it]  8%|▊         | 290/3529 [1:48:28<19:07:27, 21.26s/it]                                                       {'loss': 7.1104, 'grad_norm': 51.97509002685547, 'learning_rate': 9.92887385847779e-06, 'epoch': 0.08}
+  8%|▊         | 290/3529 [1:48:28<19:07:27, 21.26s/it]  8%|▊         | 291/3529 [1:48:48<18:57:47, 21.08s/it]  8%|▊         | 292/3529 [1:49:09<18:50:43, 20.96s/it]  8%|▊         | 293/3529 [1:49:34<19:59:08, 22.23s/it]  8%|▊         | 294/3529 [1:49:56<20:00:11, 22.26s/it]  8%|▊         | 295/3529 [1:50:19<20:05:48, 22.37s/it]  8%|▊         | 296/3529 [1:50:39<19:32:23, 21.76s/it]  8%|▊         | 297/3529 [1:51:04<20:25:19, 22.75s/it]  8%|▊         | 298/3529 [1:51:27<20:24:19, 22.74s/it]  8%|▊         | 299/3529 [1:51:51<20:39:46, 23.03s/it]  9%|▊         | 300/3529 [1:52:13<20:17:20, 22.62s/it]                                                       {'loss': 6.6099, 'grad_norm': 56.030025482177734, 'learning_rate': 9.920953659009863e-06, 'epoch': 0.08}
+  9%|▊         | 300/3529 [1:52:13<20:17:20, 22.62s/it]  9%|▊         | 301/3529 [1:52:37<20:51:06, 23.25s/it]  9%|▊         | 302/3529 [1:53:00<20:41:25, 23.08s/it]  9%|▊         | 303/3529 [1:53:21<20:01:30, 22.35s/it]  9%|▊         | 304/3529 [1:53:41<19:22:43, 21.63s/it]  9%|▊         | 305/3529 [1:54:03<19:31:13, 21.80s/it]  9%|▊         | 306/3529 [1:54:25<19:40:29, 21.98s/it]  9%|▊         | 307/3529 [1:54:48<19:47:19, 22.11s/it]  9%|▊         | 308/3529 [1:55:08<19:22:10, 21.65s/it]  9%|▉         | 309/3529 [1:55:31<19:41:33, 22.02s/it]  9%|▉         | 310/3529 [1:55:54<19:50:00, 22.18s/it]                                                       {'loss': 4.9933, 'grad_norm': 37.08720016479492, 'learning_rate': 9.912618952251071e-06, 'epoch': 0.09}
+  9%|▉         | 310/3529 [1:55:54<19:50:00, 22.18s/it]  9%|▉         | 311/3529 [1:56:14<19:23:26, 21.69s/it]  9%|▉         | 312/3529 [1:56:36<19:32:47, 21.87s/it]  9%|▉         | 313/3529 [1:56:59<19:37:18, 21.96s/it]  9%|▉         | 314/3529 [1:57:21<19:41:50, 22.06s/it]  9%|▉         | 315/3529 [1:57:43<19:49:36, 22.21s/it]  9%|▉         | 316/3529 [1:58:06<19:55:27, 22.32s/it]  9%|▉         | 317/3529 [1:58:27<19:40:17, 22.05s/it]  9%|▉         | 318/3529 [1:58:48<19:23:32, 21.74s/it]  9%|▉         | 319/3529 [1:59:09<19:06:25, 21.43s/it]  9%|▉         | 320/3529 [1:59:34<19:55:55, 22.36s/it]                                                       {'loss': 5.7727, 'grad_norm': 34.61451721191406, 'learning_rate': 9.903870440259787e-06, 'epoch': 0.09}
+  9%|▉         | 320/3529 [1:59:34<19:55:55, 22.36s/it]  9%|▉         | 321/3529 [1:59:56<20:01:55, 22.48s/it]  9%|▉         | 322/3529 [2:00:19<20:04:14, 22.53s/it]  9%|▉         | 323/3529 [2:00:44<20:36:12, 23.14s/it]  9%|▉         | 324/3529 [2:01:04<19:43:51, 22.16s/it]  9%|▉         | 325/3529 [2:01:23<19:00:34, 21.36s/it]  9%|▉         | 326/3529 [2:01:48<19:54:58, 22.38s/it]  9%|▉         | 327/3529 [2:02:10<19:47:20, 22.25s/it]  9%|▉         | 328/3529 [2:02:32<19:46:33, 22.24s/it]  9%|▉         | 329/3529 [2:02:55<19:54:27, 22.40s/it]  9%|▉         | 330/3529 [2:03:15<19:18:58, 21.74s/it]                                                       {'loss': 4.8536, 'grad_norm': 35.92675018310547, 'learning_rate': 9.89470885995049e-06, 'epoch': 0.09}
+  9%|▉         | 330/3529 [2:03:15<19:18:58, 21.74s/it]  9%|▉         | 331/3529 [2:03:38<19:33:43, 22.02s/it]  9%|▉         | 332/3529 [2:04:00<19:44:51, 22.24s/it]  9%|▉         | 333/3529 [2:04:21<19:12:42, 21.64s/it]  9%|▉         | 334/3529 [2:04:43<19:32:54, 22.03s/it]  9%|▉         | 335/3529 [2:05:06<19:39:25, 22.16s/it] 10%|▉         | 336/3529 [2:05:27<19:24:38, 21.88s/it] 10%|▉         | 337/3529 [2:05:48<19:02:35, 21.48s/it] 10%|▉         | 338/3529 [2:06:10<19:15:57, 21.74s/it] 10%|▉         | 339/3529 [2:06:33<19:35:21, 22.11s/it] 10%|▉         | 340/3529 [2:06:55<19:39:30, 22.19s/it]                                                       {'loss': 5.6988, 'grad_norm': 31.899490356445312, 'learning_rate': 9.885134983031694e-06, 'epoch': 0.1}
+ 10%|▉         | 340/3529 [2:06:55<19:39:30, 22.19s/it] 10%|▉         | 341/3529 [2:07:18<19:45:23, 22.31s/it] 10%|▉         | 342/3529 [2:07:39<19:22:38, 21.89s/it] 10%|▉         | 343/3529 [2:07:59<18:51:33, 21.31s/it] 10%|▉         | 344/3529 [2:08:20<18:52:40, 21.34s/it] 10%|▉         | 345/3529 [2:08:41<18:49:34, 21.29s/it] 10%|▉         | 346/3529 [2:09:03<18:56:10, 21.42s/it] 10%|▉         | 347/3529 [2:09:25<19:10:06, 21.69s/it] 10%|▉         | 348/3529 [2:09:47<19:00:33, 21.51s/it] 10%|▉         | 349/3529 [2:10:07<18:48:54, 21.30s/it] 10%|▉         | 350/3529 [2:10:30<19:10:08, 21.71s/it]                                                       {'loss': 8.0547, 'grad_norm': 37.71702194213867, 'learning_rate': 9.875149615940943e-06, 'epoch': 0.1}
+ 10%|▉         | 350/3529 [2:10:30<19:10:08, 21.71s/it] 10%|▉         | 351/3529 [2:10:53<19:23:00, 21.96s/it] 10%|▉         | 352/3529 [2:11:15<19:31:03, 22.12s/it] 10%|█         | 353/3529 [2:11:38<19:49:38, 22.47s/it] 10%|█         | 354/3529 [2:12:01<19:52:56, 22.54s/it] 10%|█         | 355/3529 [2:12:26<20:25:12, 23.16s/it] 10%|█         | 356/3529 [2:12:48<20:11:13, 22.90s/it] 10%|█         | 357/3529 [2:13:10<20:02:49, 22.75s/it] 10%|█         | 358/3529 [2:13:31<19:35:31, 22.24s/it] 10%|█         | 359/3529 [2:13:52<19:12:44, 21.82s/it] 10%|█         | 360/3529 [2:14:15<19:31:00, 22.17s/it]                                                       {'loss': 5.7466, 'grad_norm': 32.81459426879883, 'learning_rate': 9.864753599776883e-06, 'epoch': 0.1}
+ 10%|█         | 360/3529 [2:14:15<19:31:00, 22.17s/it] 10%|█         | 361/3529 [2:14:38<19:35:32, 22.26s/it] 10%|█         | 362/3529 [2:15:00<19:36:40, 22.29s/it] 10%|█         | 363/3529 [2:15:23<19:51:59, 22.59s/it] 10%|█         | 364/3529 [2:15:45<19:37:16, 22.32s/it] 10%|█         | 365/3529 [2:16:09<19:55:05, 22.66s/it] 10%|█         | 366/3529 [2:16:31<19:53:52, 22.65s/it] 10%|█         | 367/3529 [2:16:52<19:26:58, 22.14s/it] 10%|█         | 368/3529 [2:17:14<19:14:49, 21.92s/it] 10%|█         | 369/3529 [2:17:39<20:06:17, 22.90s/it] 10%|█         | 370/3529 [2:18:04<20:37:37, 23.51s/it]                                                       {'loss': 6.3535, 'grad_norm': 34.12638854980469, 'learning_rate': 9.853947810228416e-06, 'epoch': 0.1}
+ 10%|█         | 370/3529 [2:18:04<20:37:37, 23.51s/it] 11%|█         | 371/3529 [2:18:26<20:22:10, 23.22s/it] 11%|█         | 372/3529 [2:18:49<20:09:44, 22.99s/it] 11%|█         | 373/3529 [2:19:11<19:57:17, 22.76s/it] 11%|█         | 374/3529 [2:19:31<19:13:04, 21.93s/it] 11%|█         | 375/3529 [2:19:53<19:17:15, 22.02s/it] 11%|█         | 376/3529 [2:20:15<19:20:01, 22.07s/it] 11%|█         | 377/3529 [2:20:38<19:25:07, 22.18s/it] 11%|█         | 378/3529 [2:20:58<19:02:37, 21.76s/it] 11%|█         | 379/3529 [2:21:20<18:50:33, 21.53s/it] 11%|█         | 380/3529 [2:21:44<19:44:38, 22.57s/it]                                                       {'loss': 5.7424, 'grad_norm': 34.04792022705078, 'learning_rate': 9.842733157500932e-06, 'epoch': 0.11}
+ 11%|█         | 380/3529 [2:21:44<19:44:38, 22.57s/it] 11%|█         | 381/3529 [2:22:05<19:10:30, 21.93s/it] 11%|█         | 382/3529 [2:22:27<19:14:58, 22.02s/it] 11%|█         | 383/3529 [2:22:52<19:52:29, 22.74s/it] 11%|█         | 384/3529 [2:23:15<20:01:01, 22.91s/it] 11%|█         | 385/3529 [2:23:36<19:27:52, 22.29s/it] 11%|█         | 386/3529 [2:23:58<19:29:18, 22.32s/it] 11%|█         | 387/3529 [2:24:23<20:11:49, 23.14s/it] 11%|█         | 388/3529 [2:24:46<20:01:59, 22.96s/it] 11%|█         | 389/3529 [2:25:08<19:45:30, 22.65s/it] 11%|█         | 390/3529 [2:25:30<19:37:46, 22.51s/it]                                                       {'loss': 5.4935, 'grad_norm': 33.2330322265625, 'learning_rate': 9.831110586239643e-06, 'epoch': 0.11}
+ 11%|█         | 390/3529 [2:25:30<19:37:46, 22.51s/it] 11%|█         | 391/3529 [2:25:55<20:13:43, 23.21s/it] 11%|█         | 392/3529 [2:26:17<20:06:42, 23.08s/it] 11%|█         | 393/3529 [2:26:41<20:07:00, 23.09s/it] 11%|█         | 394/3529 [2:27:01<19:20:05, 22.20s/it] 11%|█         | 395/3529 [2:27:23<19:22:11, 22.25s/it] 11%|█         | 396/3529 [2:27:46<19:26:31, 22.34s/it] 11%|█         | 397/3529 [2:28:10<20:00:40, 23.00s/it] 11%|█▏        | 398/3529 [2:28:29<18:52:18, 21.70s/it] 11%|█▏        | 399/3529 [2:28:50<18:42:04, 21.51s/it] 11%|█▏        | 400/3529 [2:29:13<19:04:48, 21.95s/it]                                                       {'loss': 5.5257, 'grad_norm': 33.370567321777344, 'learning_rate': 9.819081075450014e-06, 'epoch': 0.11}
+ 11%|█▏        | 400/3529 [2:29:13<19:04:48, 21.95s/it] 11%|█▏        | 401/3529 [2:29:34<18:50:39, 21.69s/it] 11%|█▏        | 402/3529 [2:29:57<19:05:37, 21.98s/it] 11%|█▏        | 403/3529 [2:30:19<19:11:09, 22.10s/it] 11%|█▏        | 404/3529 [2:30:41<19:16:44, 22.21s/it] 11%|█▏        | 405/3529 [2:31:04<19:19:31, 22.27s/it] 12%|█▏        | 406/3529 [2:31:27<19:28:56, 22.46s/it] 12%|█▏        | 407/3529 [2:31:48<19:08:04, 22.06s/it] 12%|█▏        | 408/3529 [2:32:09<18:52:54, 21.78s/it] 12%|█▏        | 409/3529 [2:32:29<18:29:09, 21.33s/it] 12%|█▏        | 410/3529 [2:32:52<18:42:31, 21.59s/it]                                                       {'loss': 6.1631, 'grad_norm': 34.091304779052734, 'learning_rate': 9.806645638415302e-06, 'epoch': 0.12}
+ 12%|█▏        | 410/3529 [2:32:52<18:42:31, 21.59s/it] 12%|█▏        | 411/3529 [2:33:14<18:58:42, 21.91s/it] 12%|█▏        | 412/3529 [2:33:36<19:01:33, 21.97s/it] 12%|█▏        | 413/3529 [2:33:56<18:33:11, 21.43s/it] 12%|█▏        | 414/3529 [2:34:21<19:20:01, 22.34s/it] 12%|█▏        | 415/3529 [2:34:46<19:56:50, 23.06s/it] 12%|█▏        | 416/3529 [2:35:07<19:27:32, 22.50s/it] 12%|█▏        | 417/3529 [2:35:28<19:06:25, 22.10s/it] 12%|█▏        | 418/3529 [2:35:50<18:56:44, 21.92s/it] 12%|█▏        | 419/3529 [2:36:11<18:46:29, 21.73s/it] 12%|█▏        | 420/3529 [2:36:33<18:56:47, 21.94s/it]                                                       {'loss': 6.2594, 'grad_norm': 28.293777465820312, 'learning_rate': 9.79380532261119e-06, 'epoch': 0.12}
+ 12%|█▏        | 420/3529 [2:36:33<18:56:47, 21.94s/it] 12%|█▏        | 421/3529 [2:36:56<19:05:28, 22.11s/it] 12%|█▏        | 422/3529 [2:37:18<19:11:42, 22.24s/it] 12%|█▏        | 423/3529 [2:37:39<18:54:46, 21.92s/it] 12%|█▏        | 424/3529 [2:38:01<18:42:24, 21.69s/it] 12%|█▏        | 425/3529 [2:38:23<18:59:19, 22.02s/it] 12%|█▏        | 426/3529 [2:38:44<18:37:41, 21.61s/it] 12%|█▏        | 427/3529 [2:39:07<18:51:24, 21.88s/it] 12%|█▏        | 428/3529 [2:39:29<19:05:59, 22.17s/it] 12%|█▏        | 429/3529 [2:39:52<19:11:33, 22.29s/it] 12%|█▏        | 430/3529 [2:40:12<18:33:33, 21.56s/it]                                                       {'loss': 5.428, 'grad_norm': 31.169191360473633, 'learning_rate': 9.780561209617569e-06, 'epoch': 0.12}
+ 12%|█▏        | 430/3529 [2:40:12<18:33:33, 21.56s/it] 12%|█▏        | 431/3529 [2:40:32<18:08:05, 21.07s/it] 12%|█▏        | 432/3529 [2:40:52<18:00:53, 20.94s/it] 12%|█▏        | 433/3529 [2:41:14<18:03:08, 20.99s/it] 12%|█▏        | 434/3529 [2:41:33<17:43:20, 20.61s/it] 12%|█▏        | 435/3529 [2:41:54<17:45:08, 20.66s/it] 12%|█▏        | 436/3529 [2:42:15<17:43:11, 20.62s/it] 12%|█▏        | 437/3529 [2:42:37<18:16:02, 21.27s/it] 12%|█▏        | 438/3529 [2:43:00<18:30:05, 21.55s/it] 12%|█▏        | 439/3529 [2:43:22<18:43:19, 21.81s/it] 12%|█▏        | 440/3529 [2:43:44<18:50:11, 21.95s/it]                                                       {'loss': 6.3704, 'grad_norm': 31.67852783203125, 'learning_rate': 9.766914415027426e-06, 'epoch': 0.12}
+ 12%|█▏        | 440/3529 [2:43:44<18:50:11, 21.95s/it] 12%|█▏        | 441/3529 [2:44:05<18:25:47, 21.49s/it] 13%|█▎        | 442/3529 [2:44:28<18:47:24, 21.91s/it] 13%|█▎        | 443/3529 [2:44:49<18:35:27, 21.69s/it] 13%|█▎        | 444/3529 [2:45:10<18:24:10, 21.47s/it] 13%|█▎        | 445/3529 [2:45:35<19:15:13, 22.48s/it] 13%|█▎        | 446/3529 [2:45:56<18:54:35, 22.08s/it] 13%|█▎        | 447/3529 [2:46:17<18:39:29, 21.79s/it] 13%|█▎        | 448/3529 [2:46:39<18:52:36, 22.06s/it] 13%|█▎        | 449/3529 [2:47:04<19:32:25, 22.84s/it] 13%|█▎        | 450/3529 [2:47:26<19:23:13, 22.67s/it]                                                       {'loss': 6.3413, 'grad_norm': 24.92995262145996, 'learning_rate': 9.752866088352882e-06, 'epoch': 0.13}
+ 13%|█▎        | 450/3529 [2:47:26<19:23:13, 22.67s/it] 13%|█▎        | 451/3529 [2:47:47<18:54:32, 22.12s/it] 13%|█▎        | 452/3529 [2:48:08<18:36:08, 21.76s/it] 13%|█▎        | 453/3529 [2:48:33<19:19:57, 22.63s/it] 13%|█▎        | 454/3529 [2:48:56<19:20:43, 22.65s/it] 13%|█▎        | 455/3529 [2:49:18<19:18:45, 22.62s/it] 13%|█▎        | 456/3529 [2:49:41<19:16:50, 22.59s/it] 13%|█▎        | 457/3529 [2:50:02<18:54:16, 22.15s/it] 13%|█▎        | 458/3529 [2:50:22<18:32:09, 21.73s/it] 13%|█▎        | 459/3529 [2:50:45<18:37:36, 21.84s/it] 13%|█▎        | 460/3529 [2:51:05<18:08:14, 21.28s/it]                                                       {'loss': 6.1918, 'grad_norm': 30.267122268676758, 'learning_rate': 9.738417412928348e-06, 'epoch': 0.13}
+ 13%|█▎        | 460/3529 [2:51:05<18:08:14, 21.28s/it] 13%|█▎        | 461/3529 [2:51:27<18:24:02, 21.59s/it] 13%|█▎        | 462/3529 [2:51:47<18:01:42, 21.16s/it] 13%|█▎        | 463/3529 [2:52:08<17:56:48, 21.07s/it] 13%|█▎        | 464/3529 [2:52:29<17:53:39, 21.02s/it] 13%|█▎        | 465/3529 [2:52:51<18:15:21, 21.45s/it] 13%|█▎        | 466/3529 [2:53:14<18:35:51, 21.86s/it] 13%|█▎        | 467/3529 [2:53:36<18:40:07, 21.95s/it] 13%|█▎        | 468/3529 [2:53:57<18:17:21, 21.51s/it] 13%|█▎        | 469/3529 [2:54:19<18:31:17, 21.79s/it] 13%|█▎        | 470/3529 [2:54:42<18:44:45, 22.06s/it]                                                       {'loss': 5.2388, 'grad_norm': 34.71146011352539, 'learning_rate': 9.72356960581087e-06, 'epoch': 0.13}
+ 13%|█▎        | 470/3529 [2:54:42<18:44:45, 22.06s/it] 13%|█▎        | 471/3529 [2:55:02<18:18:03, 21.54s/it] 13%|█▎        | 472/3529 [2:55:27<19:13:43, 22.64s/it] 13%|█▎        | 473/3529 [2:55:50<19:08:30, 22.55s/it] 13%|█▎        | 474/3529 [2:56:12<19:09:44, 22.58s/it] 13%|█▎        | 475/3529 [2:56:32<18:25:27, 21.72s/it] 13%|█▎        | 476/3529 [2:56:52<18:03:07, 21.29s/it] 14%|█▎        | 477/3529 [2:57:15<18:24:19, 21.71s/it] 14%|█▎        | 478/3529 [2:57:38<18:41:54, 22.06s/it] 14%|█▎        | 479/3529 [2:58:00<18:45:05, 22.13s/it] 14%|█▎        | 480/3529 [2:58:23<18:54:20, 22.32s/it]                                                       {'loss': 4.2622, 'grad_norm': 32.87137985229492, 'learning_rate': 9.7083239176776e-06, 'epoch': 0.14}
+ 14%|█▎        | 480/3529 [2:58:23<18:54:20, 22.32s/it] 14%|█▎        | 481/3529 [2:58:46<19:00:44, 22.46s/it] 14%|█▎        | 482/3529 [2:59:08<19:02:20, 22.49s/it] 14%|█▎        | 483/3529 [2:59:31<18:58:17, 22.42s/it] 14%|█▎        | 484/3529 [2:59:52<18:49:15, 22.25s/it] 14%|█▎        | 485/3529 [3:00:15<18:59:43, 22.46s/it] 14%|█▍        | 486/3529 [3:00:38<18:59:37, 22.47s/it] 14%|█▍        | 487/3529 [3:01:01<19:06:43, 22.62s/it] 14%|█▍        | 488/3529 [3:01:24<19:09:21, 22.68s/it] 14%|█▍        | 489/3529 [3:01:46<19:04:12, 22.58s/it] 14%|█▍        | 490/3529 [3:02:06<18:29:54, 21.91s/it]                                                       {'loss': 4.1838, 'grad_norm': 37.83769226074219, 'learning_rate': 9.692681632720448e-06, 'epoch': 0.14}
+ 14%|█▍        | 490/3529 [3:02:06<18:29:54, 21.91s/it] 14%|█▍        | 491/3529 [3:02:27<18:17:16, 21.67s/it] 14%|█▍        | 492/3529 [3:02:49<18:11:17, 21.56s/it] 14%|█▍        | 493/3529 [3:03:12<18:37:28, 22.08s/it] 14%|█▍        | 494/3529 [3:03:33<18:24:20, 21.83s/it] 14%|█▍        | 495/3529 [3:03:56<18:37:45, 22.10s/it] 14%|█▍        | 496/3529 [3:04:19<18:44:07, 22.24s/it] 14%|█▍        | 497/3529 [3:04:39<18:17:26, 21.72s/it] 14%|█▍        | 498/3529 [3:05:01<18:21:23, 21.80s/it] 14%|█▍        | 499/3529 [3:05:24<18:30:15, 21.99s/it] 14%|█▍        | 500/3529 [3:05:46<18:35:39, 22.10s/it]                                                       {'loss': 6.1015, 'grad_norm': 29.84713363647461, 'learning_rate': 9.676644068537915e-06, 'epoch': 0.14}
+ 14%|█▍        | 500/3529 [3:05:46<18:35:39, 22.10s/it] 14%|█▍        | 501/3529 [3:06:08<18:40:46, 22.21s/it] 14%|█▍        | 502/3529 [3:06:30<18:25:12, 21.91s/it] 14%|█▍        | 503/3529 [3:06:51<18:14:02, 21.69s/it] 14%|█▍        | 504/3529 [3:07:13<18:27:04, 21.96s/it] 14%|█▍        | 505/3529 [3:07:34<18:04:11, 21.51s/it] 14%|█▍        | 506/3529 [3:07:56<18:17:07, 21.78s/it] 14%|█▍        | 507/3529 [3:08:17<18:09:44, 21.64s/it] 14%|█▍        | 508/3529 [3:08:39<18:02:07, 21.49s/it] 14%|█▍        | 509/3529 [3:09:01<18:18:06, 21.82s/it] 14%|█▍        | 510/3529 [3:09:24<18:26:38, 21.99s/it]                                                       {'loss': 6.1121, 'grad_norm': 37.30936050415039, 'learning_rate': 9.660212576024102e-06, 'epoch': 0.14}
+ 14%|█▍        | 510/3529 [3:09:24<18:26:38, 21.99s/it] 14%|█▍        | 511/3529 [3:09:43<17:43:40, 21.15s/it] 15%|█▍        | 512/3529 [3:10:04<17:41:52, 21.12s/it] 15%|█▍        | 513/3529 [3:10:26<18:00:39, 21.50s/it] 15%|█▍        | 514/3529 [3:10:47<17:42:51, 21.15s/it] 15%|█▍        | 515/3529 [3:11:11<18:36:35, 22.23s/it] 15%|█▍        | 516/3529 [3:11:32<18:06:42, 21.64s/it] 15%|█▍        | 517/3529 [3:11:54<18:13:19, 21.78s/it] 15%|█▍        | 518/3529 [3:12:14<17:50:48, 21.34s/it] 15%|█▍        | 519/3529 [3:12:33<17:12:30, 20.58s/it] 15%|█▍        | 520/3529 [3:12:54<17:17:55, 20.70s/it]                                                       {'loss': 6.0385, 'grad_norm': 43.746490478515625, 'learning_rate': 9.64338853925493e-06, 'epoch': 0.15}
+ 15%|█▍        | 520/3529 [3:12:54<17:17:55, 20.70s/it] 15%|█▍        | 521/3529 [3:13:17<17:49:19, 21.33s/it] 15%|█▍        | 522/3529 [3:13:39<18:06:47, 21.69s/it] 15%|█▍        | 523/3529 [3:14:00<17:52:47, 21.41s/it] 15%|█▍        | 524/3529 [3:14:19<17:22:15, 20.81s/it] 15%|█▍        | 525/3529 [3:14:41<17:29:26, 20.96s/it] 15%|█▍        | 526/3529 [3:15:03<17:54:33, 21.47s/it] 15%|█▍        | 527/3529 [3:15:26<18:18:49, 21.96s/it] 15%|█▍        | 528/3529 [3:15:49<18:33:38, 22.27s/it] 15%|█▍        | 529/3529 [3:16:12<18:36:28, 22.33s/it] 15%|█▌        | 530/3529 [3:16:34<18:39:07, 22.39s/it]                                                       {'loss': 6.1911, 'grad_norm': 32.99515151977539, 'learning_rate': 9.62617337537154e-06, 'epoch': 0.15}
+ 15%|█▌        | 530/3529 [3:16:34<18:39:07, 22.39s/it] 15%|█▌        | 531/3529 [3:16:53<17:45:59, 21.33s/it] 15%|█▌        | 532/3529 [3:17:14<17:40:35, 21.23s/it] 15%|█▌        | 533/3529 [3:17:37<18:05:40, 21.74s/it] 15%|█▌        | 534/3529 [3:17:58<17:53:00, 21.50s/it] 15%|█▌        | 535/3529 [3:18:21<18:16:28, 21.97s/it] 15%|█▌        | 536/3529 [3:18:44<18:25:20, 22.16s/it] 15%|█▌        | 537/3529 [3:19:09<19:05:39, 22.97s/it] 15%|█▌        | 538/3529 [3:19:31<18:56:10, 22.79s/it] 15%|█▌        | 539/3529 [3:19:52<18:27:01, 22.21s/it] 15%|█▌        | 540/3529 [3:20:13<18:07:39, 21.83s/it]                                                       {'loss': 5.822, 'grad_norm': 46.957340240478516, 'learning_rate': 9.608568534460938e-06, 'epoch': 0.15}
+ 15%|█▌        | 540/3529 [3:20:13<18:07:39, 21.83s/it] 15%|█▌        | 541/3529 [3:20:34<17:59:00, 21.67s/it] 15%|█▌        | 542/3529 [3:20:55<17:46:46, 21.43s/it] 15%|█▌        | 543/3529 [3:21:16<17:44:51, 21.40s/it] 15%|█▌        | 544/3529 [3:21:36<17:19:21, 20.89s/it] 15%|█▌        | 545/3529 [3:21:57<17:22:42, 20.97s/it] 15%|█▌        | 546/3529 [3:22:20<17:45:08, 21.42s/it] 16%|█▌        | 547/3529 [3:22:42<18:02:37, 21.78s/it] 16%|█▌        | 548/3529 [3:23:03<17:40:47, 21.35s/it] 16%|█▌        | 549/3529 [3:23:25<17:54:35, 21.64s/it] 16%|█▌        | 550/3529 [3:23:47<18:01:10, 21.78s/it]                                                       {'loss': 7.1735, 'grad_norm': 33.011844635009766, 'learning_rate': 9.590575499433837e-06, 'epoch': 0.16}
+ 16%|█▌        | 550/3529 [3:23:47<18:01:10, 21.78s/it] 16%|█▌        | 551/3529 [3:24:08<17:51:49, 21.59s/it] 16%|█▌        | 552/3529 [3:24:30<17:47:40, 21.52s/it] 16%|█▌        | 553/3529 [3:24:52<17:58:22, 21.74s/it] 16%|█▌        | 554/3529 [3:25:14<18:06:50, 21.92s/it] 16%|█▌        | 555/3529 [3:25:33<17:18:54, 20.96s/it] 16%|█▌        | 556/3529 [3:25:53<17:12:32, 20.84s/it] 16%|█▌        | 557/3529 [3:26:15<17:26:24, 21.13s/it] 16%|█▌        | 558/3529 [3:26:36<17:26:13, 21.13s/it] 16%|█▌        | 559/3529 [3:26:58<17:28:58, 21.19s/it] 16%|█▌        | 560/3529 [3:27:18<17:17:17, 20.96s/it]                                                       {'loss': 6.8695, 'grad_norm': 31.042083740234375, 'learning_rate': 9.572195785899756e-06, 'epoch': 0.16}
+ 16%|█▌        | 560/3529 [3:27:18<17:17:17, 20.96s/it] 16%|█▌        | 561/3529 [3:27:39<17:23:06, 21.09s/it] 16%|█▌        | 562/3529 [3:28:00<17:20:08, 21.03s/it] 16%|█▌        | 563/3529 [3:28:21<17:08:03, 20.80s/it] 16%|█▌        | 564/3529 [3:28:39<16:37:04, 20.18s/it] 16%|█▌        | 565/3529 [3:29:00<16:41:15, 20.27s/it] 16%|█▌        | 566/3529 [3:29:23<17:17:59, 21.02s/it] 16%|█▌        | 567/3529 [3:29:44<17:18:20, 21.03s/it] 16%|█▌        | 568/3529 [3:30:05<17:22:42, 21.13s/it] 16%|█▌        | 569/3529 [3:30:28<17:43:51, 21.56s/it] 16%|█▌        | 570/3529 [3:30:51<18:16:16, 22.23s/it]                                                       {'loss': 6.9135, 'grad_norm': 26.289737701416016, 'learning_rate': 9.553430942039352e-06, 'epoch': 0.16}
+ 16%|█▌        | 570/3529 [3:30:51<18:16:16, 22.23s/it] 16%|█▌        | 571/3529 [3:31:12<17:48:45, 21.68s/it] 16%|█▌        | 572/3529 [3:31:35<18:10:36, 22.13s/it] 16%|█▌        | 573/3529 [3:31:58<18:21:42, 22.36s/it] 16%|█▋        | 574/3529 [3:32:19<17:58:04, 21.89s/it] 16%|█▋        | 575/3529 [3:32:40<17:51:05, 21.76s/it] 16%|█▋        | 576/3529 [3:33:03<18:02:22, 21.99s/it] 16%|█▋        | 577/3529 [3:33:25<18:11:45, 22.19s/it] 16%|█▋        | 578/3529 [3:33:48<18:20:44, 22.38s/it] 16%|█▋        | 579/3529 [3:34:11<18:22:23, 22.42s/it] 16%|█▋        | 580/3529 [3:34:33<18:20:33, 22.39s/it]                                                       {'loss': 5.075, 'grad_norm': 29.071701049804688, 'learning_rate': 9.534282548474008e-06, 'epoch': 0.16}
+ 16%|█▋        | 580/3529 [3:34:33<18:20:33, 22.39s/it] 16%|█▋        | 581/3529 [3:34:56<18:27:56, 22.55s/it] 16%|█▋        | 582/3529 [3:35:17<18:02:09, 22.03s/it] 17%|█▋        | 583/3529 [3:35:38<17:47:34, 21.74s/it] 17%|█▋        | 584/3529 [3:35:59<17:40:06, 21.60s/it] 17%|█▋        | 585/3529 [3:36:22<17:57:34, 21.96s/it] 17%|█▋        | 586/3529 [3:36:43<17:42:05, 21.65s/it] 17%|█▋        | 587/3529 [3:37:05<17:56:13, 21.95s/it] 17%|█▋        | 588/3529 [3:37:28<17:59:39, 22.03s/it] 17%|█▋        | 589/3529 [3:37:52<18:31:47, 22.69s/it] 17%|█▋        | 590/3529 [3:38:13<18:07:03, 22.19s/it]                                                       {'loss': 7.0842, 'grad_norm': 46.65534973144531, 'learning_rate': 9.514752218132703e-06, 'epoch': 0.17}
+ 17%|█▋        | 590/3529 [3:38:13<18:07:03, 22.19s/it] 17%|█▋        | 591/3529 [3:38:35<18:11:38, 22.29s/it] 17%|█▋        | 592/3529 [3:39:00<18:43:52, 22.96s/it] 17%|█▋        | 593/3529 [3:39:21<18:09:46, 22.27s/it] 17%|█▋        | 594/3529 [3:39:42<17:53:51, 21.95s/it] 17%|█▋        | 595/3529 [3:40:04<18:01:16, 22.11s/it] 17%|█▋        | 596/3529 [3:40:27<18:06:38, 22.23s/it] 17%|█▋        | 597/3529 [3:40:47<17:35:37, 21.60s/it] 17%|█▋        | 598/3529 [3:41:09<17:48:14, 21.87s/it] 17%|█▋        | 599/3529 [3:41:30<17:24:43, 21.39s/it] 17%|█▋        | 600/3529 [3:41:52<17:42:21, 21.76s/it]                                                       {'loss': 4.9555, 'grad_norm': 31.195234298706055, 'learning_rate': 9.494841596116138e-06, 'epoch': 0.17}
+ 17%|█▋        | 600/3529 [3:41:52<17:42:21, 21.76s/it] 17%|█▋        | 601/3529 [3:42:11<17:03:20, 20.97s/it] 17%|█▋        | 602/3529 [3:42:31<16:45:50, 20.62s/it] 17%|█▋        | 603/3529 [3:42:52<16:54:02, 20.79s/it] 17%|█▋        | 604/3529 [3:43:16<17:30:49, 21.56s/it] 17%|█▋        | 605/3529 [3:43:41<18:21:11, 22.60s/it] 17%|█▋        | 606/3529 [3:44:00<17:30:57, 21.57s/it] 17%|█▋        | 607/3529 [3:44:20<17:02:52, 21.00s/it] 17%|█▋        | 608/3529 [3:44:41<17:01:21, 20.98s/it] 17%|█▋        | 609/3529 [3:45:03<17:23:57, 21.45s/it] 17%|█▋        | 610/3529 [3:45:28<18:13:50, 22.48s/it]                                                       {'loss': 8.0829, 'grad_norm': 26.25963020324707, 'learning_rate': 9.474552359558167e-06, 'epoch': 0.17}
+ 17%|█▋        | 610/3529 [3:45:28<18:13:50, 22.48s/it] 17%|█▋        | 611/3529 [3:45:50<18:09:33, 22.40s/it] 17%|█▋        | 612/3529 [3:46:13<18:14:08, 22.51s/it] 17%|█▋        | 613/3529 [3:46:36<18:16:19, 22.56s/it] 17%|█▋        | 614/3529 [3:46:59<18:21:54, 22.68s/it] 17%|█▋        | 615/3529 [3:47:19<17:52:56, 22.09s/it] 17%|█▋        | 616/3529 [3:47:42<17:58:45, 22.22s/it] 17%|█▋        | 617/3529 [3:48:05<18:13:23, 22.53s/it] 18%|█▊        | 618/3529 [3:48:28<18:14:38, 22.56s/it] 18%|█▊        | 619/3529 [3:48:51<18:19:57, 22.68s/it] 18%|█▊        | 620/3529 [3:49:11<17:45:36, 21.98s/it]                                                       {'loss': 4.0549, 'grad_norm': 25.132131576538086, 'learning_rate': 9.453886217484536e-06, 'epoch': 0.18}
+ 18%|█▊        | 620/3529 [3:49:11<17:45:36, 21.98s/it] 18%|█▊        | 621/3529 [3:49:34<18:00:59, 22.30s/it] 18%|█▊        | 622/3529 [3:49:57<18:08:07, 22.46s/it] 18%|█▊        | 623/3529 [3:50:20<18:11:06, 22.53s/it] 18%|█▊        | 624/3529 [3:50:41<17:50:52, 22.12s/it] 18%|█▊        | 625/3529 [3:51:02<17:37:31, 21.85s/it] 18%|█▊        | 626/3529 [3:51:22<17:17:28, 21.44s/it] 18%|█▊        | 627/3529 [3:51:46<17:43:20, 21.98s/it] 18%|█▊        | 628/3529 [3:52:09<17:57:52, 22.29s/it] 18%|█▊        | 629/3529 [3:52:30<17:41:06, 21.95s/it] 18%|█▊        | 630/3529 [3:52:51<17:29:56, 21.73s/it]                                                       {'loss': 6.1125, 'grad_norm': 47.06711196899414, 'learning_rate': 9.432844910668914e-06, 'epoch': 0.18}
+ 18%|█▊        | 630/3529 [3:52:51<17:29:56, 21.73s/it] 18%|█▊        | 631/3529 [3:53:14<17:41:15, 21.97s/it] 18%|█▊        | 632/3529 [3:53:35<17:25:35, 21.66s/it] 18%|█▊        | 633/3529 [3:53:55<17:14:09, 21.43s/it] 18%|█▊        | 634/3529 [3:54:16<16:58:42, 21.11s/it] 18%|█▊        | 635/3529 [3:54:36<16:38:46, 20.71s/it] 18%|█▊        | 636/3529 [3:54:57<16:46:34, 20.88s/it] 18%|█▊        | 637/3529 [3:55:18<16:48:05, 20.91s/it] 18%|█▊        | 638/3529 [3:55:39<16:45:44, 20.87s/it] 18%|█▊        | 639/3529 [3:56:00<16:45:20, 20.87s/it] 18%|█▊        | 640/3529 [3:56:21<16:48:05, 20.94s/it]                                                       {'loss': 6.7009, 'grad_norm': 41.20506286621094, 'learning_rate': 9.41143021148627e-06, 'epoch': 0.18}
+ 18%|█▊        | 640/3529 [3:56:21<16:48:05, 20.94s/it] 18%|█▊        | 641/3529 [3:56:41<16:39:50, 20.77s/it] 18%|█▊        | 642/3529 [3:57:04<17:07:49, 21.36s/it] 18%|█▊        | 643/3529 [3:57:26<17:24:50, 21.72s/it] 18%|█▊        | 644/3529 [3:57:48<17:18:34, 21.60s/it] 18%|█▊        | 645/3529 [3:58:07<16:53:01, 21.08s/it] 18%|█▊        | 646/3529 [3:58:28<16:38:54, 20.79s/it] 18%|█▊        | 647/3529 [3:58:49<16:49:25, 21.02s/it] 18%|█▊        | 648/3529 [3:59:12<17:16:53, 21.59s/it] 18%|█▊        | 649/3529 [3:59:38<18:11:38, 22.74s/it] 18%|█▊        | 650/3529 [4:00:01<18:17:10, 22.87s/it]                                                       {'loss': 6.8328, 'grad_norm': 27.037729263305664, 'learning_rate': 9.389643923763573e-06, 'epoch': 0.18}
+ 18%|█▊        | 650/3529 [4:00:01<18:17:10, 22.87s/it] 18%|█▊        | 651/3529 [4:00:24<18:20:11, 22.94s/it] 18%|█▊        | 652/3529 [4:00:49<18:46:54, 23.50s/it] 19%|█▊        | 653/3529 [4:01:12<18:39:05, 23.35s/it] 19%|█▊        | 654/3529 [4:01:37<19:07:12, 23.94s/it] 19%|█▊        | 655/3529 [4:01:58<18:20:41, 22.98s/it] 19%|█▊        | 656/3529 [4:02:19<17:51:04, 22.37s/it] 19%|█▊        | 657/3529 [4:02:39<17:28:39, 21.91s/it] 19%|█▊        | 658/3529 [4:03:00<17:07:32, 21.47s/it] 19%|█▊        | 659/3529 [4:03:21<17:03:37, 21.40s/it] 19%|█▊        | 660/3529 [4:03:43<17:08:18, 21.51s/it]                                                       {'loss': 5.0284, 'grad_norm': 44.91098403930664, 'learning_rate': 9.367487882627866e-06, 'epoch': 0.19}
+ 19%|█▊        | 660/3529 [4:03:43<17:08:18, 21.51s/it] 19%|█▊        | 661/3529 [4:04:06<17:30:56, 21.99s/it] 19%|█▉        | 662/3529 [4:04:29<17:47:50, 22.35s/it] 19%|█▉        | 663/3529 [4:04:50<17:21:29, 21.80s/it] 19%|█▉        | 664/3529 [4:05:11<17:12:43, 21.63s/it] 19%|█▉        | 665/3529 [4:05:32<17:09:08, 21.56s/it] 19%|█▉        | 666/3529 [4:05:53<16:58:32, 21.35s/it] 19%|█▉        | 667/3529 [4:06:14<16:56:26, 21.31s/it] 19%|█▉        | 668/3529 [4:06:37<17:16:19, 21.73s/it] 19%|█▉        | 669/3529 [4:07:00<17:31:23, 22.06s/it] 19%|█▉        | 670/3529 [4:07:23<17:43:20, 22.32s/it]                                                       {'loss': 6.0377, 'grad_norm': 32.71237564086914, 'learning_rate': 9.344963954351662e-06, 'epoch': 0.19}
+ 19%|█▉        | 670/3529 [4:07:23<17:43:20, 22.32s/it] 19%|█▉        | 671/3529 [4:07:48<18:21:42, 23.13s/it] 19%|█▉        | 672/3529 [4:08:10<18:14:23, 22.98s/it] 19%|█▉        | 673/3529 [4:08:36<18:44:55, 23.63s/it] 19%|█▉        | 674/3529 [4:08:56<18:01:15, 22.72s/it] 19%|█▉        | 675/3529 [4:09:19<18:01:54, 22.75s/it] 19%|█▉        | 676/3529 [4:09:41<17:54:52, 22.61s/it] 19%|█▉        | 677/3529 [4:10:04<17:59:27, 22.71s/it] 19%|█▉        | 678/3529 [4:10:27<18:03:21, 22.80s/it] 19%|█▉        | 679/3529 [4:10:50<17:59:59, 22.74s/it] 19%|█▉        | 680/3529 [4:11:10<17:26:55, 22.05s/it]                                                       {'loss': 3.9539, 'grad_norm': 24.608020782470703, 'learning_rate': 9.32207403619577e-06, 'epoch': 0.19}
+ 19%|█▉        | 680/3529 [4:11:10<17:26:55, 22.05s/it] 19%|█▉        | 681/3529 [4:11:29<16:43:11, 21.13s/it] 19%|█▉        | 682/3529 [4:11:51<16:46:18, 21.21s/it] 19%|█▉        | 683/3529 [4:12:14<17:13:50, 21.80s/it] 19%|█▉        | 684/3529 [4:12:34<16:53:39, 21.38s/it] 19%|█▉        | 685/3529 [4:12:57<17:16:17, 21.86s/it] 19%|█▉        | 686/3529 [4:13:18<17:05:46, 21.65s/it] 19%|█▉        | 687/3529 [4:13:38<16:31:08, 20.92s/it] 19%|█▉        | 688/3529 [4:13:59<16:34:41, 21.01s/it] 20%|█▉        | 689/3529 [4:14:22<17:06:58, 21.70s/it] 20%|█▉        | 690/3529 [4:14:43<16:56:33, 21.48s/it]                                                       {'loss': 7.6906, 'grad_norm': 45.37845230102539, 'learning_rate': 9.298820056249459e-06, 'epoch': 0.2}
+ 20%|█▉        | 690/3529 [4:14:43<16:56:33, 21.48s/it] 20%|█▉        | 691/3529 [4:15:04<16:47:50, 21.31s/it] 20%|█▉        | 692/3529 [4:15:25<16:44:17, 21.24s/it] 20%|█▉        | 693/3529 [4:15:46<16:41:32, 21.19s/it] 20%|█▉        | 694/3529 [4:16:07<16:41:14, 21.19s/it] 20%|█▉        | 695/3529 [4:16:30<17:01:19, 21.62s/it] 20%|█▉        | 696/3529 [4:16:53<17:21:52, 22.07s/it] 20%|█▉        | 697/3529 [4:17:19<18:11:16, 23.12s/it] 20%|█▉        | 698/3529 [4:17:42<18:10:48, 23.12s/it] 20%|█▉        | 699/3529 [4:18:05<18:07:22, 23.05s/it] 20%|█▉        | 700/3529 [4:18:30<18:36:17, 23.68s/it]                                                       {'loss': 5.7302, 'grad_norm': 26.40629768371582, 'learning_rate': 9.275203973268064e-06, 'epoch': 0.2}
+ 20%|█▉        | 700/3529 [4:18:30<18:36:17, 23.68s/it] 20%|█▉        | 701/3529 [4:18:53<18:23:56, 23.42s/it] 20%|█▉        | 702/3529 [4:19:16<18:16:50, 23.28s/it] 20%|█▉        | 703/3529 [4:19:39<18:13:14, 23.21s/it] 20%|█▉        | 704/3529 [4:20:01<18:07:05, 23.09s/it] 20%|█▉        | 705/3529 [4:20:24<18:04:18, 23.04s/it] 20%|██        | 706/3529 [4:20:46<17:37:40, 22.48s/it] 20%|██        | 707/3529 [4:21:07<17:28:24, 22.29s/it] 20%|██        | 708/3529 [4:21:31<17:43:28, 22.62s/it] 20%|██        | 709/3529 [4:21:52<17:30:07, 22.34s/it] 20%|██        | 710/3529 [4:22:14<17:12:42, 21.98s/it]                                                       {'loss': 5.6252, 'grad_norm': 25.433490753173828, 'learning_rate': 9.251227776507989e-06, 'epoch': 0.2}
+ 20%|██        | 710/3529 [4:22:14<17:12:42, 21.98s/it] 20%|██        | 711/3529 [4:22:35<17:05:57, 21.84s/it] 20%|██        | 712/3529 [4:22:57<16:58:29, 21.69s/it] 20%|██        | 713/3529 [4:23:19<17:12:30, 22.00s/it] 20%|██        | 714/3529 [4:23:45<17:59:42, 23.01s/it] 20%|██        | 715/3529 [4:24:10<18:31:46, 23.71s/it] 20%|██        | 716/3529 [4:24:31<17:55:38, 22.94s/it] 20%|██        | 717/3529 [4:24:52<17:33:44, 22.48s/it] 20%|██        | 718/3529 [4:25:15<17:39:04, 22.61s/it] 20%|██        | 719/3529 [4:25:38<17:43:41, 22.71s/it] 20%|██        | 720/3529 [4:25:59<17:14:23, 22.09s/it]                                                       {'loss': 5.8884, 'grad_norm': 25.276575088500977, 'learning_rate': 9.226893485559146e-06, 'epoch': 0.2}
+ 20%|██        | 720/3529 [4:25:59<17:14:23, 22.09s/it] 20%|██        | 721/3529 [4:26:21<17:08:03, 21.97s/it] 20%|██        | 722/3529 [4:26:43<17:16:49, 22.16s/it] 20%|██        | 723/3529 [4:27:04<16:55:27, 21.71s/it] 21%|██        | 724/3529 [4:27:24<16:27:19, 21.12s/it] 21%|██        | 725/3529 [4:27:45<16:32:44, 21.24s/it] 21%|██        | 726/3529 [4:28:04<16:02:40, 20.61s/it] 21%|██        | 727/3529 [4:28:26<16:16:41, 20.91s/it] 21%|██        | 728/3529 [4:28:46<16:10:54, 20.80s/it] 21%|██        | 729/3529 [4:29:05<15:44:01, 20.23s/it] 21%|██        | 730/3529 [4:29:25<15:41:04, 20.17s/it]                                                       {'loss': 9.215, 'grad_norm': 45.13107681274414, 'learning_rate': 9.202203150174836e-06, 'epoch': 0.21}
+ 21%|██        | 730/3529 [4:29:25<15:41:04, 20.17s/it] 21%|██        | 731/3529 [4:29:47<15:57:12, 20.53s/it] 21%|██        | 732/3529 [4:30:09<16:25:36, 21.14s/it] 21%|██        | 733/3529 [4:30:32<16:41:52, 21.50s/it] 21%|██        | 734/3529 [4:30:52<16:26:06, 21.17s/it] 21%|██        | 735/3529 [4:31:17<17:24:24, 22.43s/it] 21%|██        | 736/3529 [4:31:39<17:08:05, 22.09s/it] 21%|██        | 737/3529 [4:32:01<17:04:11, 22.01s/it] 21%|██        | 738/3529 [4:32:23<17:15:21, 22.26s/it] 21%|██        | 739/3529 [4:32:47<17:26:59, 22.52s/it] 21%|██        | 740/3529 [4:33:07<17:04:17, 22.04s/it]                                                       {'loss': 5.7232, 'grad_norm': 26.52821922302246, 'learning_rate': 9.177158850099099e-06, 'epoch': 0.21}
+ 21%|██        | 740/3529 [4:33:07<17:04:17, 22.04s/it] 21%|██        | 741/3529 [4:33:32<17:45:01, 22.92s/it] 21%|██        | 742/3529 [4:33:54<17:22:07, 22.44s/it] 21%|██        | 743/3529 [4:34:14<16:46:02, 21.67s/it] 21%|██        | 744/3529 [4:34:35<16:43:42, 21.62s/it] 21%|██        | 745/3529 [4:35:00<17:27:48, 22.58s/it] 21%|██        | 746/3529 [4:35:23<17:33:07, 22.70s/it] 21%|██        | 747/3529 [4:35:46<17:33:49, 22.73s/it] 21%|██        | 748/3529 [4:36:07<17:09:22, 22.21s/it] 21%|██        | 749/3529 [4:36:28<16:55:34, 21.92s/it] 21%|██▏       | 750/3529 [4:36:49<16:44:55, 21.70s/it]                                                       {'loss': 6.7846, 'grad_norm': 43.29339599609375, 'learning_rate': 9.151762694891522e-06, 'epoch': 0.21}
+ 21%|██▏       | 750/3529 [4:36:49<16:44:55, 21.70s/it] 21%|██▏       | 751/3529 [4:37:12<17:00:34, 22.04s/it] 21%|██▏       | 752/3529 [4:37:33<16:47:00, 21.76s/it] 21%|██▏       | 753/3529 [4:37:54<16:36:42, 21.54s/it] 21%|██▏       | 754/3529 [4:38:14<16:18:20, 21.15s/it] 21%|██▏       | 755/3529 [4:38:35<16:10:58, 21.00s/it] 21%|██▏       | 756/3529 [4:38:56<16:14:02, 21.08s/it] 21%|██▏       | 757/3529 [4:39:17<16:12:42, 21.05s/it] 21%|██▏       | 758/3529 [4:39:38<16:07:34, 20.95s/it] 22%|██▏       | 759/3529 [4:40:01<16:31:25, 21.47s/it] 22%|██▏       | 760/3529 [4:40:21<16:20:17, 21.24s/it]                                                       {'loss': 5.8371, 'grad_norm': 29.308732986450195, 'learning_rate': 9.12601682374955e-06, 'epoch': 0.22}
+ 22%|██▏       | 760/3529 [4:40:21<16:20:17, 21.24s/it] 22%|██▏       | 761/3529 [4:40:44<16:41:53, 21.72s/it] 22%|██▏       | 762/3529 [4:41:07<16:52:26, 21.95s/it] 22%|██▏       | 763/3529 [4:41:30<17:05:14, 22.24s/it] 22%|██▏       | 764/3529 [4:41:50<16:41:58, 21.74s/it] 22%|██▏       | 765/3529 [4:42:13<16:57:04, 22.08s/it] 22%|██▏       | 766/3529 [4:42:34<16:37:49, 21.67s/it] 22%|██▏       | 767/3529 [4:42:57<16:54:15, 22.03s/it] 22%|██▏       | 768/3529 [4:43:20<17:08:09, 22.34s/it] 22%|██▏       | 769/3529 [4:43:43<17:16:09, 22.53s/it] 22%|██▏       | 770/3529 [4:44:05<17:17:38, 22.57s/it]                                                       {'loss': 3.9846, 'grad_norm': 25.373172760009766, 'learning_rate': 9.099923405328293e-06, 'epoch': 0.22}
+ 22%|██▏       | 770/3529 [4:44:05<17:17:38, 22.57s/it] 22%|██▏       | 771/3529 [4:44:28<17:22:30, 22.68s/it] 22%|██▏       | 772/3529 [4:44:51<17:28:10, 22.81s/it] 22%|██▏       | 773/3529 [4:45:17<17:59:56, 23.51s/it] 22%|██▏       | 774/3529 [4:45:38<17:26:46, 22.80s/it] 22%|██▏       | 775/3529 [4:45:59<16:59:35, 22.21s/it] 22%|██▏       | 776/3529 [4:46:22<17:09:49, 22.44s/it] 22%|██▏       | 777/3529 [4:46:45<17:25:14, 22.79s/it] 22%|██▏       | 778/3529 [4:47:06<16:53:06, 22.10s/it] 22%|██▏       | 779/3529 [4:47:28<17:03:44, 22.34s/it] 22%|██▏       | 780/3529 [4:47:51<17:10:55, 22.50s/it]                                                       {'loss': 4.8174, 'grad_norm': 33.12062454223633, 'learning_rate': 9.073484637557852e-06, 'epoch': 0.22}
+ 22%|██▏       | 780/3529 [4:47:51<17:10:55, 22.50s/it] 22%|██▏       | 781/3529 [4:48:12<16:41:35, 21.87s/it] 22%|██▏       | 782/3529 [4:48:35<16:53:53, 22.15s/it] 22%|██▏       | 783/3529 [4:48:55<16:34:16, 21.72s/it] 22%|██▏       | 784/3529 [4:49:14<15:58:38, 20.95s/it] 22%|██▏       | 785/3529 [4:49:36<16:00:35, 21.00s/it] 22%|██▏       | 786/3529 [4:49:58<16:21:39, 21.47s/it] 22%|██▏       | 787/3529 [4:50:21<16:46:28, 22.02s/it] 22%|██▏       | 788/3529 [4:50:44<16:57:53, 22.28s/it] 22%|██▏       | 789/3529 [4:51:10<17:42:37, 23.27s/it] 22%|██▏       | 790/3529 [4:51:33<17:37:12, 23.16s/it]                                                       {'loss': 5.8073, 'grad_norm': 24.834850311279297, 'learning_rate': 9.046702747458186e-06, 'epoch': 0.22}
+ 22%|██▏       | 790/3529 [4:51:33<17:37:12, 23.16s/it] 22%|██▏       | 791/3529 [4:51:56<17:35:49, 23.14s/it] 22%|██▏       | 792/3529 [4:52:18<17:25:34, 22.92s/it] 22%|██▏       | 793/3529 [4:52:41<17:28:09, 22.99s/it] 22%|██▏       | 794/3529 [4:53:07<17:57:35, 23.64s/it] 23%|██▎       | 795/3529 [4:53:29<17:42:39, 23.32s/it] 23%|██▎       | 796/3529 [4:53:52<17:40:26, 23.28s/it] 23%|██▎       | 797/3529 [4:54:13<17:08:38, 22.59s/it] 23%|██▎       | 798/3529 [4:54:33<16:29:41, 21.74s/it] 23%|██▎       | 799/3529 [4:54:55<16:27:03, 21.69s/it] 23%|██▎       | 800/3529 [4:55:18<16:44:17, 22.08s/it]                                                       {'loss': 5.6668, 'grad_norm': 23.760942459106445, 'learning_rate': 9.019579990951514e-06, 'epoch': 0.23}
+ 23%|██▎       | 800/3529 [4:55:18<16:44:17, 22.08s/it] 23%|██▎       | 801/3529 [4:55:40<16:53:06, 22.28s/it] 23%|██▎       | 802/3529 [4:56:04<17:11:37, 22.70s/it] 23%|██▎       | 803/3529 [4:56:27<17:18:45, 22.86s/it] 23%|██▎       | 804/3529 [4:56:50<17:20:38, 22.91s/it] 23%|██▎       | 805/3529 [4:57:14<17:30:07, 23.13s/it] 23%|██▎       | 806/3529 [4:57:35<17:01:30, 22.51s/it] 23%|██▎       | 807/3529 [4:57:56<16:43:38, 22.12s/it] 23%|██▎       | 808/3529 [4:58:18<16:34:16, 21.92s/it] 23%|██▎       | 809/3529 [4:58:41<16:45:00, 22.17s/it] 23%|██▎       | 810/3529 [4:59:03<16:49:43, 22.28s/it]                                                       {'loss': 5.6386, 'grad_norm': 25.230995178222656, 'learning_rate': 8.992118652672302e-06, 'epoch': 0.23}
+ 23%|██▎       | 810/3529 [4:59:03<16:49:43, 22.28s/it] 23%|██▎       | 811/3529 [4:59:28<17:28:08, 23.14s/it] 23%|██▎       | 812/3529 [4:59:47<16:29:53, 21.86s/it] 23%|██▎       | 813/3529 [5:00:08<16:17:28, 21.59s/it] 23%|██▎       | 814/3529 [5:00:31<16:36:20, 22.02s/it] 23%|██▎       | 815/3529 [5:00:54<16:42:52, 22.17s/it] 23%|██▎       | 816/3529 [5:01:19<17:26:41, 23.15s/it] 23%|██▎       | 817/3529 [5:01:42<17:30:06, 23.23s/it] 23%|██▎       | 818/3529 [5:02:06<17:28:17, 23.20s/it] 23%|██▎       | 819/3529 [5:02:26<16:50:32, 22.37s/it] 23%|██▎       | 820/3529 [5:02:47<16:29:54, 21.92s/it]                                                       {'loss': 5.1316, 'grad_norm': 27.033655166625977, 'learning_rate': 8.964321045774808e-06, 'epoch': 0.23}
+ 23%|██▎       | 820/3529 [5:02:47<16:29:54, 21.92s/it] 23%|██▎       | 821/3529 [5:03:10<16:39:45, 22.15s/it] 23%|██▎       | 822/3529 [5:03:32<16:47:01, 22.32s/it] 23%|██▎       | 823/3529 [5:03:55<16:51:29, 22.43s/it] 23%|██▎       | 824/3529 [5:04:16<16:33:10, 22.03s/it] 23%|██▎       | 825/3529 [5:04:37<16:19:10, 21.73s/it] 23%|██▎       | 826/3529 [5:05:00<16:40:18, 22.20s/it] 23%|██▎       | 827/3529 [5:05:22<16:28:55, 21.96s/it] 23%|██▎       | 828/3529 [5:05:45<16:40:28, 22.22s/it] 23%|██▎       | 829/3529 [5:06:07<16:47:40, 22.39s/it] 24%|██▎       | 830/3529 [5:06:30<16:50:40, 22.47s/it]                                                       {'loss': 5.0568, 'grad_norm': 36.77193832397461, 'learning_rate': 8.936189511738254e-06, 'epoch': 0.24}
+ 24%|██▎       | 830/3529 [5:06:30<16:50:40, 22.47s/it] 24%|██▎       | 831/3529 [5:06:53<17:00:23, 22.69s/it] 24%|██▎       | 832/3529 [5:07:18<17:33:16, 23.43s/it] 24%|██▎       | 833/3529 [5:07:39<16:56:35, 22.62s/it] 24%|██▎       | 834/3529 [5:08:00<16:33:15, 22.11s/it] 24%|██▎       | 835/3529 [5:08:21<16:20:47, 21.84s/it] 24%|██▎       | 836/3529 [5:08:43<16:12:31, 21.67s/it] 24%|██▎       | 837/3529 [5:09:06<16:31:15, 22.09s/it] 24%|██▎       | 838/3529 [5:09:30<17:04:48, 22.85s/it] 24%|██▍       | 839/3529 [5:09:53<17:04:10, 22.84s/it] 24%|██▍       | 840/3529 [5:10:15<16:56:36, 22.68s/it]                                                       {'loss': 5.5521, 'grad_norm': 21.841785430908203, 'learning_rate': 8.907726420169583e-06, 'epoch': 0.24}
+ 24%|██▍       | 840/3529 [5:10:15<16:56:36, 22.68s/it] 24%|██▍       | 841/3529 [5:10:34<16:03:55, 21.52s/it] 24%|██▍       | 842/3529 [5:10:56<16:04:44, 21.54s/it] 24%|██▍       | 843/3529 [5:11:18<16:19:17, 21.88s/it] 24%|██▍       | 844/3529 [5:11:44<17:03:05, 22.86s/it] 24%|██▍       | 845/3529 [5:12:07<17:04:40, 22.91s/it] 24%|██▍       | 846/3529 [5:12:27<16:32:22, 22.19s/it] 24%|██▍       | 847/3529 [5:12:49<16:21:31, 21.96s/it] 24%|██▍       | 848/3529 [5:13:10<16:09:05, 21.69s/it] 24%|██▍       | 849/3529 [5:13:29<15:36:36, 20.97s/it] 24%|██▍       | 850/3529 [5:13:50<15:44:08, 21.15s/it]                                                       {'loss': 6.7058, 'grad_norm': 46.69823455810547, 'learning_rate': 8.878934168603865e-06, 'epoch': 0.24}
+ 24%|██▍       | 850/3529 [5:13:50<15:44:08, 21.15s/it] 24%|██▍       | 851/3529 [5:14:12<15:46:27, 21.21s/it] 24%|██▍       | 852/3529 [5:14:33<15:47:48, 21.24s/it] 24%|██▍       | 853/3529 [5:14:58<16:40:08, 22.42s/it] 24%|██▍       | 854/3529 [5:15:22<16:50:38, 22.67s/it] 24%|██▍       | 855/3529 [5:15:45<17:02:05, 22.93s/it] 24%|██▍       | 856/3529 [5:16:06<16:39:11, 22.43s/it] 24%|██▍       | 857/3529 [5:16:26<15:57:42, 21.51s/it] 24%|██▍       | 858/3529 [5:16:45<15:31:44, 20.93s/it] 24%|██▍       | 859/3529 [5:17:07<15:41:04, 21.15s/it] 24%|██▍       | 860/3529 [5:17:30<16:00:25, 21.59s/it]                                                       {'loss': 7.8944, 'grad_norm': 23.228717803955078, 'learning_rate': 8.849815182302345e-06, 'epoch': 0.24}
+ 24%|██▍       | 860/3529 [5:17:30<16:00:25, 21.59s/it] 24%|██▍       | 861/3529 [5:17:53<16:18:01, 21.99s/it] 24%|██▍       | 862/3529 [5:18:16<16:31:07, 22.30s/it] 24%|██▍       | 863/3529 [5:18:39<16:40:03, 22.51s/it] 24%|██▍       | 864/3529 [5:19:01<16:42:22, 22.57s/it] 25%|██▍       | 865/3529 [5:19:25<16:52:05, 22.79s/it] 25%|██▍       | 866/3529 [5:19:46<16:29:12, 22.29s/it] 25%|██▍       | 867/3529 [5:20:07<16:12:37, 21.92s/it] 25%|██▍       | 868/3529 [5:20:32<16:57:26, 22.94s/it] 25%|██▍       | 869/3529 [5:20:55<17:03:00, 23.08s/it] 25%|██▍       | 870/3529 [5:21:18<17:00:04, 23.02s/it]                                                       {'loss': 4.8468, 'grad_norm': 33.86655807495117, 'learning_rate': 8.820371914048153e-06, 'epoch': 0.25}
+ 25%|██▍       | 870/3529 [5:21:18<17:00:04, 23.02s/it] 25%|██▍       | 871/3529 [5:21:41<16:49:01, 22.78s/it] 25%|██▍       | 872/3529 [5:22:04<16:54:54, 22.92s/it] 25%|██▍       | 873/3529 [5:22:29<17:24:08, 23.59s/it] 25%|██▍       | 874/3529 [5:22:52<17:10:51, 23.30s/it] 25%|██▍       | 875/3529 [5:23:12<16:32:07, 22.43s/it] 25%|██▍       | 876/3529 [5:23:35<16:34:34, 22.49s/it] 25%|██▍       | 877/3529 [5:23:58<16:40:08, 22.63s/it] 25%|██▍       | 878/3529 [5:24:18<16:15:34, 22.08s/it] 25%|██▍       | 879/3529 [5:24:41<16:18:26, 22.15s/it] 25%|██▍       | 880/3529 [5:25:02<16:01:45, 21.78s/it]                                                       {'loss': 3.709, 'grad_norm': 25.241182327270508, 'learning_rate': 8.790606843939705e-06, 'epoch': 0.25}
+ 25%|██▍       | 880/3529 [5:25:02<16:01:45, 21.78s/it] 25%|██▍       | 881/3529 [5:25:25<16:21:45, 22.25s/it] 25%|██▍       | 882/3529 [5:25:48<16:28:50, 22.41s/it] 25%|██▌       | 883/3529 [5:26:11<16:36:37, 22.60s/it] 25%|██▌       | 884/3529 [5:26:34<16:42:48, 22.75s/it] 25%|██▌       | 885/3529 [5:26:58<16:57:10, 23.08s/it] 25%|██▌       | 886/3529 [5:27:19<16:34:14, 22.57s/it] 25%|██▌       | 887/3529 [5:27:39<16:05:19, 21.92s/it] 25%|██▌       | 888/3529 [5:28:02<16:17:35, 22.21s/it] 25%|██▌       | 889/3529 [5:28:23<15:53:32, 21.67s/it] 25%|██▌       | 890/3529 [5:28:48<16:38:37, 22.70s/it]                                                       {'loss': 4.844, 'grad_norm': 25.6811580657959, 'learning_rate': 8.760522479181784e-06, 'epoch': 0.25}
+ 25%|██▌       | 890/3529 [5:28:48<16:38:37, 22.70s/it] 25%|██▌       | 891/3529 [5:29:09<16:14:18, 22.16s/it] 25%|██▌       | 892/3529 [5:29:29<15:46:36, 21.54s/it] 25%|██▌       | 893/3529 [5:29:50<15:42:14, 21.45s/it] 25%|██▌       | 894/3529 [5:30:13<15:59:08, 21.84s/it] 25%|██▌       | 895/3529 [5:30:36<16:13:56, 22.19s/it] 25%|██▌       | 896/3529 [5:30:59<16:23:04, 22.40s/it] 25%|██▌       | 897/3529 [5:31:22<16:29:48, 22.56s/it] 25%|██▌       | 898/3529 [5:31:45<16:42:23, 22.86s/it] 25%|██▌       | 899/3529 [5:32:07<16:31:57, 22.63s/it] 26%|██▌       | 900/3529 [5:32:28<16:11:55, 22.18s/it]                                                       {'loss': 6.7687, 'grad_norm': 43.929115295410156, 'learning_rate': 8.730121353874365e-06, 'epoch': 0.25}
+ 26%|██▌       | 900/3529 [5:32:28<16:11:55, 22.18s/it] 26%|██▌       | 901/3529 [5:32:51<16:18:08, 22.33s/it] 26%|██▌       | 902/3529 [5:33:14<16:20:52, 22.40s/it] 26%|██▌       | 903/3529 [5:33:34<15:52:12, 21.76s/it] 26%|██▌       | 904/3529 [5:33:57<16:10:08, 22.17s/it] 26%|██▌       | 905/3529 [5:34:18<15:53:05, 21.79s/it] 26%|██▌       | 906/3529 [5:34:41<16:07:43, 22.14s/it] 26%|██▌       | 907/3529 [5:35:04<16:12:27, 22.25s/it] 26%|██▌       | 908/3529 [5:35:27<16:23:14, 22.51s/it] 26%|██▌       | 909/3529 [5:35:50<16:27:57, 22.62s/it] 26%|██▌       | 910/3529 [5:36:12<16:28:19, 22.64s/it]                                                       {'loss': 3.7733, 'grad_norm': 25.351106643676758, 'learning_rate': 8.69940602879915e-06, 'epoch': 0.26}
+ 26%|██▌       | 910/3529 [5:36:12<16:28:19, 22.64s/it] 26%|██▌       | 911/3529 [5:36:35<16:32:55, 22.76s/it] 26%|██▌       | 912/3529 [5:37:00<16:58:46, 23.36s/it] 26%|██▌       | 913/3529 [5:37:25<17:20:02, 23.85s/it] 26%|██▌       | 914/3529 [5:37:47<16:59:22, 23.39s/it] 26%|██▌       | 915/3529 [5:38:06<16:00:08, 22.04s/it] 26%|██▌       | 916/3529 [5:38:26<15:30:29, 21.37s/it] 26%|██▌       | 917/3529 [5:38:47<15:29:11, 21.34s/it] 26%|██▌       | 918/3529 [5:39:08<15:16:28, 21.06s/it] 26%|██▌       | 919/3529 [5:39:30<15:30:55, 21.40s/it] 26%|██▌       | 920/3529 [5:39:51<15:28:49, 21.36s/it]                                                       {'loss': 6.5226, 'grad_norm': 45.543373107910156, 'learning_rate': 8.66837909120387e-06, 'epoch': 0.26}
+ 26%|██▌       | 920/3529 [5:39:51<15:28:49, 21.36s/it] 26%|██▌       | 921/3529 [5:40:13<15:28:56, 21.37s/it] 26%|██▌       | 922/3529 [5:40:34<15:25:55, 21.31s/it] 26%|██▌       | 923/3529 [5:40:55<15:19:21, 21.17s/it] 26%|██▌       | 924/3529 [5:41:16<15:24:00, 21.28s/it] 26%|██▌       | 925/3529 [5:41:37<15:24:49, 21.31s/it] 26%|██▌       | 926/3529 [5:41:59<15:27:11, 21.37s/it] 26%|██▋       | 927/3529 [5:42:22<15:46:49, 21.83s/it] 26%|██▋       | 928/3529 [5:42:41<15:10:22, 21.00s/it] 26%|██▋       | 929/3529 [5:43:02<15:07:44, 20.95s/it] 26%|██▋       | 930/3529 [5:43:25<15:31:15, 21.50s/it]                                                       {'loss': 7.782, 'grad_norm': 35.3692626953125, 'learning_rate': 8.637043154584351e-06, 'epoch': 0.26}
+ 26%|██▋       | 930/3529 [5:43:25<15:31:15, 21.50s/it] 26%|██▋       | 931/3529 [5:43:49<16:13:59, 22.49s/it] 26%|██▋       | 932/3529 [5:44:12<16:18:31, 22.61s/it] 26%|██▋       | 933/3529 [5:44:35<16:22:10, 22.70s/it] 26%|██▋       | 934/3529 [5:44:59<16:31:50, 22.93s/it] 26%|██▋       | 935/3529 [5:45:19<16:01:12, 22.23s/it] 27%|██▋       | 936/3529 [5:45:39<15:34:41, 21.63s/it] 27%|██▋       | 937/3529 [5:46:03<15:55:56, 22.13s/it] 27%|██▋       | 938/3529 [5:46:25<16:01:06, 22.26s/it] 27%|██▋       | 939/3529 [5:46:48<16:06:49, 22.40s/it] 27%|██▋       | 940/3529 [5:47:13<16:41:55, 23.22s/it]                                                       {'loss': 3.7581, 'grad_norm': 23.175140380859375, 'learning_rate': 8.60540085846437e-06, 'epoch': 0.27}
+ 27%|██▋       | 940/3529 [5:47:13<16:41:55, 23.22s/it] 27%|██▋       | 941/3529 [5:47:36<16:38:34, 23.15s/it] 27%|██▋       | 942/3529 [5:47:56<16:01:22, 22.30s/it] 27%|██▋       | 943/3529 [5:48:19<16:05:29, 22.40s/it] 27%|██▋       | 944/3529 [5:48:45<16:44:43, 23.32s/it] 27%|██▋       | 945/3529 [5:49:10<17:10:07, 23.92s/it] 27%|██▋       | 946/3529 [5:49:33<17:00:00, 23.69s/it] 27%|██▋       | 947/3529 [5:49:58<17:16:55, 24.10s/it] 27%|██▋       | 948/3529 [5:50:21<17:01:11, 23.74s/it] 27%|██▋       | 949/3529 [5:50:44<16:50:47, 23.51s/it] 27%|██▋       | 950/3529 [5:51:07<16:38:16, 23.22s/it]                                                       {'loss': 3.8114, 'grad_norm': 22.461284637451172, 'learning_rate': 8.573454868173325e-06, 'epoch': 0.27}
+ 27%|██▋       | 950/3529 [5:51:07<16:38:16, 23.22s/it] 27%|██▋       | 951/3529 [5:51:29<16:33:35, 23.12s/it] 27%|██▋       | 952/3529 [5:51:54<16:57:36, 23.69s/it] 27%|██▋       | 953/3529 [5:52:18<16:52:00, 23.57s/it] 27%|██▋       | 954/3529 [5:52:39<16:20:24, 22.84s/it] 27%|██▋       | 955/3529 [5:53:00<16:03:28, 22.46s/it] 27%|██▋       | 956/3529 [5:53:23<16:09:28, 22.61s/it] 27%|██▋       | 957/3529 [5:53:44<15:48:19, 22.12s/it] 27%|██▋       | 958/3529 [5:54:06<15:36:20, 21.85s/it] 27%|██▋       | 959/3529 [5:54:28<15:45:20, 22.07s/it] 27%|██▋       | 960/3529 [5:54:53<16:24:02, 22.98s/it]                                                       {'loss': 5.6752, 'grad_norm': 30.49061393737793, 'learning_rate': 8.541207874621718e-06, 'epoch': 0.27}
+ 27%|██▋       | 960/3529 [5:54:53<16:24:02, 22.98s/it] 27%|██▋       | 961/3529 [5:55:14<15:49:25, 22.18s/it] 27%|██▋       | 962/3529 [5:55:34<15:31:41, 21.78s/it] 27%|██▋       | 963/3529 [5:55:55<15:14:40, 21.39s/it] 27%|██▋       | 964/3529 [5:56:20<15:59:23, 22.44s/it] 27%|██▋       | 965/3529 [5:56:40<15:29:30, 21.75s/it] 27%|██▋       | 966/3529 [5:56:59<14:55:41, 20.97s/it] 27%|██▋       | 967/3529 [5:57:20<14:58:03, 21.03s/it] 27%|██▋       | 968/3529 [5:57:45<15:46:47, 22.18s/it] 27%|██▋       | 969/3529 [5:58:04<14:59:20, 21.08s/it] 27%|██▋       | 970/3529 [5:58:25<15:05:32, 21.23s/it]                                                       {'loss': 5.8459, 'grad_norm': 43.03390121459961, 'learning_rate': 8.508662594074496e-06, 'epoch': 0.27}
+ 27%|██▋       | 970/3529 [5:58:25<15:05:32, 21.23s/it] 28%|██▊       | 971/3529 [5:58:50<15:55:56, 22.42s/it] 28%|██▊       | 972/3529 [5:59:13<15:59:08, 22.51s/it] 28%|██▊       | 973/3529 [5:59:34<15:43:22, 22.14s/it] 28%|██▊       | 974/3529 [5:59:56<15:33:09, 21.91s/it] 28%|██▊       | 975/3529 [6:00:21<16:13:55, 22.88s/it] 28%|██▊       | 976/3529 [6:00:44<16:11:41, 22.84s/it] 28%|██▊       | 977/3529 [6:01:07<16:12:48, 22.87s/it] 28%|██▊       | 978/3529 [6:01:26<15:25:52, 21.78s/it] 28%|██▊       | 979/3529 [6:01:48<15:24:02, 21.74s/it] 28%|██▊       | 980/3529 [6:02:11<15:43:21, 22.21s/it]                                                       {'loss': 6.1604, 'grad_norm': 144.74916076660156, 'learning_rate': 8.475821767922254e-06, 'epoch': 0.28}
+ 28%|██▊       | 980/3529 [6:02:11<15:43:21, 22.21s/it] 28%|██▊       | 981/3529 [6:02:32<15:33:13, 21.98s/it] 28%|██▊       | 982/3529 [6:02:54<15:29:00, 21.88s/it] 28%|██▊       | 983/3529 [6:03:17<15:41:43, 22.19s/it] 28%|██▊       | 984/3529 [6:03:39<15:46:19, 22.31s/it] 28%|██▊       | 985/3529 [6:04:02<15:54:11, 22.50s/it] 28%|██▊       | 986/3529 [6:04:22<15:21:46, 21.75s/it] 28%|██▊       | 987/3529 [6:04:45<15:37:18, 22.12s/it] 28%|██▊       | 988/3529 [6:05:08<15:46:33, 22.35s/it] 28%|██▊       | 989/3529 [6:05:31<15:53:25, 22.52s/it] 28%|██▊       | 990/3529 [6:05:54<15:55:49, 22.59s/it]                                                       {'loss': 4.7632, 'grad_norm': 26.303081512451172, 'learning_rate': 8.442688162450315e-06, 'epoch': 0.28}
+ 28%|██▊       | 990/3529 [6:05:54<15:55:49, 22.59s/it] 28%|██▊       | 991/3529 [6:06:18<16:08:32, 22.90s/it] 28%|██▊       | 992/3529 [6:06:39<15:49:53, 22.46s/it] 28%|██▊       | 993/3529 [6:07:02<15:55:08, 22.60s/it] 28%|██▊       | 994/3529 [6:07:25<15:58:18, 22.68s/it] 28%|██▊       | 995/3529 [6:07:44<15:14:02, 21.64s/it] 28%|██▊       | 996/3529 [6:08:04<14:54:06, 21.18s/it] 28%|██▊       | 997/3529 [6:08:26<14:59:06, 21.31s/it] 28%|██▊       | 998/3529 [6:08:45<14:29:22, 20.61s/it] 28%|██▊       | 999/3529 [6:09:06<14:42:12, 20.92s/it] 28%|██▊       | 1000/3529 [6:09:29<15:04:26, 21.46s/it]                                                        {'loss': 8.0062, 'grad_norm': 28.066007614135742, 'learning_rate': 8.409264568605714e-06, 'epoch': 0.28}
+ 28%|██▊       | 1000/3529 [6:09:29<15:04:26, 21.46s/it]/usr/local/lib/python3.12/dist-packages/torch/distributed/distributed_c10d.py:4814: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
+  warnings.warn(  # warn only once
+/usr/local/lib/python3.12/dist-packages/torch/distributed/distributed_c10d.py:4814: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
+  warnings.warn(  # warn only once
+/usr/local/lib/python3.12/dist-packages/torch/distributed/distributed_c10d.py:4814: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
+  warnings.warn(  # warn only once
+/usr/local/lib/python3.12/dist-packages/torch/distributed/distributed_c10d.py:4814: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
+  warnings.warn(  # warn only once
+/usr/local/lib/python3.12/dist-packages/torch/distributed/distributed_c10d.py:4814: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
+  warnings.warn(  # warn only once
+/usr/local/lib/python3.12/dist-packages/torch/distributed/distributed_c10d.py:4814: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
+  warnings.warn(  # warn only once
+/usr/local/lib/python3.12/dist-packages/torch/utils/checkpoint.py:85: UserWarning: None of the inputs have requires_grad=True. Gradients will be None
+  warnings.warn(
+/workspace/src/qwen_vl/model/geometry_encoders/vggt_encoder.py:68: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with torch.cuda.amp.autocast(dtype=dtype):
+ 28%|██▊       | 1001/3529 [6:10:47<26:59:35, 38.44s/it] 28%|██▊       | 1002/3529 [6:11:11<23:59:39, 34.18s/it] 28%|██▊       | 1003/3529 [6:11:39<22:34:14, 32.17s/it] 28%|██▊       | 1004/3529 [6:12:09<22:09:15, 31.59s/it] 28%|██▊       | 1005/3529 [6:12:39<21:43:31, 30.99s/it] 29%|██▊       | 1006/3529 [6:13:06<21:01:20, 30.00s/it] 29%|██▊       | 1007/3529 [6:13:34<20:29:38, 29.25s/it] 29%|██▊       | 1008/3529 [6:14:00<19:52:50, 28.39s/it] 29%|██▊       | 1009/3529 [6:14:30<20:08:00, 28.76s/it] 29%|██▊       | 1010/3529 [6:14:57<19:50:07, 28.35s/it]                                                        {'loss': 3.9505, 'grad_norm': 23.32230567932129, 'learning_rate': 8.375553801762119e-06, 'epoch': 0.29}
+ 29%|██▊       | 1010/3529 [6:14:57<19:50:07, 28.35s/it] 29%|██▊       | 1011/3529 [6:15:23<19:19:00, 27.62s/it] 29%|██▊       | 1012/3529 [6:15:53<19:44:43, 28.24s/it] 29%|██▊       | 1013/3529 [6:16:23<20:08:36, 28.82s/it] 29%|██▊       | 1014/3529 [6:16:53<20:29:08, 29.32s/it] 29%|██▉       | 1015/3529 [6:17:23<20:25:50, 29.26s/it] 29%|██▉       | 1016/3529 [6:17:52<20:27:46, 29.31s/it] 29%|██▉       | 1017/3529 [6:18:23<20:52:34, 29.92s/it] 29%|██▉       | 1018/3529 [6:18:53<20:44:52, 29.75s/it] 29%|██▉       | 1019/3529 [6:19:14<19:00:27, 27.26s/it] 29%|██▉       | 1020/3529 [6:19:45<19:50:44, 28.48s/it]                                                        {'loss': 4.7727, 'grad_norm': 53.46368408203125, 'learning_rate': 8.34155870148267e-06, 'epoch': 0.29}
+ 29%|██▉       | 1020/3529 [6:19:45<19:50:44, 28.48s/it] 29%|██▉       | 1021/3529 [6:20:15<20:02:02, 28.76s/it] 29%|██▉       | 1022/3529 [6:20:46<20:30:43, 29.45s/it] 29%|██▉       | 1023/3529 [6:21:18<21:04:50, 30.28s/it] 29%|██▉       | 1024/3529 [6:21:47<20:52:09, 29.99s/it] 29%|██▉       | 1025/3529 [6:22:20<21:20:50, 30.69s/it] 29%|██▉       | 1026/3529 [6:22:49<21:03:19, 30.28s/it] 29%|██▉       | 1027/3529 [6:23:22<21:31:01, 30.96s/it] 29%|██▉       | 1028/3529 [6:23:53<21:29:45, 30.94s/it] 29%|██▉       | 1029/3529 [6:24:23<21:20:03, 30.72s/it] 29%|██▉       | 1030/3529 [6:24:54<21:27:21, 30.91s/it]                                                        {'loss': 3.876, 'grad_norm': 28.557096481323242, 'learning_rate': 8.307282131280805e-06, 'epoch': 0.29}
+ 29%|██▉       | 1030/3529 [6:24:54<21:27:21, 30.91s/it] 29%|���█▉       | 1031/3529 [6:25:27<21:53:48, 31.56s/it] 29%|██▉       | 1032/3529 [6:25:59<22:00:34, 31.73s/it] 29%|██▉       | 1033/3529 [6:26:33<22:22:48, 32.28s/it] 29%|██▉       | 1034/3529 [6:27:05<22:22:50, 32.29s/it] 29%|██▉       | 1035/3529 [6:27:38<22:28:30, 32.44s/it] 29%|██▉       | 1036/3529 [6:28:13<22:56:55, 33.14s/it] 29%|██▉       | 1037/3529 [6:28:47<23:12:02, 33.52s/it] 29%|██▉       | 1038/3529 [6:29:22<23:23:49, 33.81s/it] 29%|██▉       | 1039/3529 [6:29:55<23:17:43, 33.68s/it] 29%|██▉       | 1040/3529 [6:30:29<23:21:54, 33.79s/it]                                                        {'loss': 3.6362, 'grad_norm': 26.72674560546875, 'learning_rate': 8.272726978379049e-06, 'epoch': 0.29}
+ 29%|██▉       | 1040/3529 [6:30:29<23:21:54, 33.79s/it] 29%|██▉       | 1041/3529 [6:31:03<23:19:22, 33.75s/it] 30%|██▉       | 1042/3529 [6:31:32<22:18:47, 32.30s/it] 30%|██▉       | 1043/3529 [6:32:03<22:09:33, 32.09s/it] 30%|██▉       | 1044/3529 [6:32:39<22:58:35, 33.29s/it] 30%|██▉       | 1045/3529 [6:33:02<20:51:14, 30.22s/it] 30%|██▉       | 1046/3529 [6:33:33<20:53:45, 30.30s/it] 30%|██▉       | 1047/3529 [6:34:09<22:02:22, 31.97s/it] 30%|██▉       | 1048/3529 [6:34:43<22:31:46, 32.69s/it] 30%|██▉       | 1049/3529 [6:35:17<22:40:54, 32.93s/it] 30%|██▉       | 1050/3529 [6:35:43<21:16:38, 30.90s/it]                                                        {'loss': 4.8435, 'grad_norm': 33.64091110229492, 'learning_rate': 8.23789615346582e-06, 'epoch': 0.3}
+ 30%|██▉       | 1050/3529 [6:35:43<21:16:38, 30.90s/it] 30%|██▉       | 1051/3529 [6:36:18<22:15:25, 32.33s/it] 30%|██▉       | 1052/3529 [6:36:54<22:51:45, 33.23s/it] 30%|██▉       | 1053/3529 [6:37:31<23:36:56, 34.34s/it] 30%|██▉       | 1054/3529 [6:38:03<23:13:00, 33.77s/it] 30%|██▉       | 1055/3529 [6:38:37<23:08:14, 33.67s/it] 30%|██▉       | 1056/3529 [6:39:10<23:09:04, 33.70s/it] 30%|██▉       | 1057/3529 [6:39:41<22:33:44, 32.86s/it] 30%|██▉       | 1058/3529 [6:40:13<22:19:37, 32.53s/it] 30%|███       | 1059/3529 [6:40:51<23:22:13, 34.06s/it] 30%|███       | 1060/3529 [6:41:31<24:34:27, 35.83s/it]                                                        {'loss': 4.8615, 'grad_norm': 25.513519287109375, 'learning_rate': 8.202792590450246e-06, 'epoch': 0.3}
+ 30%|███       | 1060/3529 [6:41:31<24:34:27, 35.83s/it] 30%|███       | 1061/3529 [6:42:08<24:49:00, 36.20s/it] 30%|███       | 1062/3529 [6:42:41<24:08:10, 35.22s/it] 30%|███       | 1063/3529 [6:43:25<25:59:22, 37.94s/it] 30%|███       | 1064/3529 [6:44:05<26:20:03, 38.46s/it] 30%|███       | 1065/3529 [6:44:40<25:36:28, 37.41s/it] 30%|███       | 1066/3529 [6:45:14<25:01:57, 36.59s/it] 30%|███       | 1067/3529 [6:45:47<24:14:28, 35.45s/it] 30%|███       | 1068/3529 [6:46:15<22:46:55, 33.33s/it] 30%|███       | 1069/3529 [6:46:52<23:29:39, 34.38s/it] 30%|███       | 1070/3529 [6:47:25<23:13:31, 34.00s/it]                                                        {'loss': 3.7897, 'grad_norm': 26.183082580566406, 'learning_rate': 8.167419246215042e-06, 'epoch': 0.3}
+ 30%|███       | 1070/3529 [6:47:25<23:13:31, 34.00s/it] 30%|███       | 1071/3529 [6:47:59<23:07:03, 33.86s/it] 30%|███       | 1072/3529 [6:48:36<23:48:27, 34.88s/it] 30%|███       | 1073/3529 [6:49:10<23:36:31, 34.61s/it] 30%|███       | 1074/3529 [6:49:46<23:49:51, 34.95s/it] 30%|███       | 1075/3529 [6:50:24<24:33:06, 36.02s/it] 30%|███       | 1076/3529 [6:50:59<24:17:03, 35.64s/it] 31%|███       | 1077/3529 [6:51:34<24:04:49, 35.35s/it] 31%|███       | 1078/3529 [6:52:13<24:50:36, 36.49s/it] 31%|███       | 1079/3529 [6:52:46<24:03:46, 35.36s/it] 31%|███       | 1080/3529 [6:53:24<24:35:15, 36.14s/it]                                                        {'loss': 3.8092, 'grad_norm': 37.91279983520508, 'learning_rate': 8.131779100367438e-06, 'epoch': 0.31}
+ 31%|███       | 1080/3529 [6:53:24<24:35:15, 36.14s/it] 31%|███       | 1081/3529 [6:53:57<23:57:06, 35.22s/it] 31%|███       | 1082/3529 [6:54:32<24:03:26, 35.39s/it] 31%|███       | 1083/3529 [6:55:13<25:02:03, 36.85s/it] 31%|███       | 1084/3529 [6:55:39<22:50:22, 33.63s/it] 31%|███       | 1085/3529 [6:56:15<23:16:43, 34.29s/it] 31%|███       | 1086/3529 [6:56:48<23:00:32, 33.91s/it] 31%|███       | 1087/3529 [6:57:06<19:50:53, 29.26s/it] 31%|███       | 1088/3529 [6:57:37<20:13:03, 29.82s/it] 31%|███       | 1089/3529 [6:58:10<20:44:46, 30.61s/it] 31%|███       | 1090/3529 [6:58:41<20:58:51, 30.97s/it]                                                        {'loss': 5.8217, 'grad_norm': 20.643037796020508, 'learning_rate': 8.09587515498819e-06, 'epoch': 0.31}
+ 31%|███       | 1090/3529 [6:58:41<20:58:51, 30.97s/it] 31%|███       | 1091/3529 [6:59:18<22:10:47, 32.75s/it] 31%|███       | 1092/3529 [6:59:49<21:45:23, 32.14s/it] 31%|███       | 1093/3529 [7:00:22<21:59:43, 32.51s/it] 31%|███       | 1094/3529 [7:00:41<19:14:22, 28.44s/it] 31%|███       | 1095/3529 [7:01:18<20:49:48, 30.81s/it] 31%|███       | 1096/3529 [7:01:52<21:30:43, 31.83s/it] 31%|███       | 1097/3529 [7:02:27<22:09:20, 32.80s/it] 31%|███       | 1098/3529 [7:02:58<21:48:48, 32.30s/it] 31%|███       | 1099/3529 [7:03:30<21:44:02, 32.20s/it] 31%|███       | 1100/3529 [7:03:58<20:54:46, 30.99s/it]                                                        {'loss': 4.6594, 'grad_norm': 24.009424209594727, 'learning_rate': 8.059710434378717e-06, 'epoch': 0.31}
+ 31%|███       | 1100/3529 [7:03:58<20:54:46, 30.99s/it] 31%|███       | 1101/3529 [7:04:31<21:14:16, 31.49s/it] 31%|███       | 1102/3529 [7:05:10<22:49:06, 33.85s/it] 31%|███▏      | 1103/3529 [7:05:47<23:27:57, 34.82s/it] 31%|███▏      | 1104/3529 [7:06:23<23:35:25, 35.02s/it] 31%|███▏      | 1105/3529 [7:06:46<21:08:48, 31.41s/it] 31%|███▏      | 1106/3529 [7:07:16<20:52:17, 31.01s/it] 31%|███▏      | 1107/3529 [7:07:39<19:09:43, 28.48s/it] 31%|███▏      | 1108/3529 [7:08:13<20:27:21, 30.42s/it] 31%|███▏      | 1109/3529 [7:08:43<20:10:58, 30.02s/it] 31%|███▏      | 1110/3529 [7:09:07<18:58:19, 28.23s/it]                                                        {'loss': 6.5989, 'grad_norm': 26.472389221191406, 'learning_rate': 8.02328798480635e-06, 'epoch': 0.31}
+ 31%|███▏      | 1110/3529 [7:09:07<18:58:19, 28.23s/it] 31%|███▏      | 1111/3529 [7:09:40<20:01:39, 29.82s/it] 32%|███▏      | 1112/3529 [7:10:15<20:58:03, 31.23s/it] 32%|███▏      | 1113/3529 [7:10:47<21:14:06, 31.64s/it] 32%|███▏      | 1114/3529 [7:11:25<22:21:15, 33.32s/it] 32%|███▏      | 1115/3529 [7:11:59<22:33:22, 33.64s/it] 32%|███▏      | 1116/3529 [7:12:21<20:09:21, 30.07s/it] 32%|███▏      | 1117/3529 [7:12:52<20:21:03, 30.37s/it] 32%|███▏      | 1118/3529 [7:13:26<21:13:36, 31.70s/it] 32%|███▏      | 1119/3529 [7:13:50<19:36:25, 29.29s/it] 32%|███▏      | 1120/3529 [7:14:10<17:47:03, 26.58s/it]                                                        {'loss': 6.7969, 'grad_norm': 42.69245529174805, 'learning_rate': 7.986610874247736e-06, 'epoch': 0.32}
+ 32%|███▏      | 1120/3529 [7:14:10<17:47:03, 26.58s/it] 32%|███▏      | 1121/3529 [7:14:32<16:48:50, 25.14s/it] 32%|███▏      | 1122/3529 [7:15:04<18:10:44, 27.19s/it] 32%|███▏      | 1123/3529 [7:15:26<17:02:46, 25.51s/it] 32%|███▏      | 1124/3529 [7:15:59<18:34:49, 27.81s/it] 32%|███▏      | 1125/3529 [7:16:32<19:34:29, 29.31s/it] 32%|███▏      | 1126/3529 [7:16:53<17:56:22, 26.88s/it] 32%|███▏      | 1127/3529 [7:17:25<18:52:33, 28.29s/it] 32%|███▏      | 1128/3529 [7:17:58<19:52:01, 29.79s/it] 32%|███▏      | 1129/3529 [7:18:31<20:37:14, 30.93s/it] 32%|███▏      | 1130/3529 [7:19:04<20:56:28, 31.42s/it]                                                        {'loss': 7.532, 'grad_norm': 20.50579833984375, 'learning_rate': 7.949682192130407e-06, 'epoch': 0.32}
+ 32%|███▏      | 1130/3529 [7:19:04<20:56:28, 31.42s/it] 32%|███▏      | 1131/3529 [7:19:37<21:17:42, 31.97s/it] 32%|███▏      | 1132/3529 [7:20:01<19:36:37, 29.45s/it] 32%|███▏      | 1133/3529 [7:20:20<17:38:55, 26.52s/it] 32%|███▏      | 1134/3529 [7:20:55<19:09:23, 28.79s/it] 32%|███▏      | 1135/3529 [7:21:27<19:57:32, 30.01s/it] 32%|███▏      | 1136/3529 [7:22:07<21:51:10, 32.88s/it] 32%|███▏      | 1137/3529 [7:22:39<21:40:00, 32.61s/it] 32%|███▏      | 1138/3529 [7:23:09<21:13:15, 31.95s/it] 32%|███▏      | 1139/3529 [7:23:41<21:04:53, 31.75s/it] 32%|███▏      | 1140/3529 [7:24:21<22:40:53, 34.18s/it]                                                        {'loss': 5.5098, 'grad_norm': 33.428890228271484, 'learning_rate': 7.912505049072559e-06, 'epoch': 0.32}
+ 32%|███▏      | 1140/3529 [7:24:21<22:40:53, 34.18s/it] 32%|███▏      | 1141/3529 [7:24:59<23:27:24, 35.36s/it] 32%|███▏      | 1142/3529 [7:25:22<20:59:50, 31.67s/it] 32%|███▏      | 1143/3529 [7:25:56<21:26:49, 32.36s/it] 32%|███▏      | 1144/3529 [7:26:28<21:20:42, 32.22s/it] 32%|███▏      | 1145/3529 [7:26:56<20:36:27, 31.12s/it] 32%|███▏      | 1146/3529 [7:27:28<20:41:45, 31.27s/it] 33%|███▎      | 1147/3529 [7:27:47<18:20:46, 27.73s/it] 33%|███▎      | 1148/3529 [7:28:20<19:15:57, 29.13s/it] 33%|███▎      | 1149/3529 [7:28:56<20:46:28, 31.42s/it] 33%|███▎      | 1150/3529 [7:29:37<22:29:38, 34.04s/it]                                                        {'loss': 5.7852, 'grad_norm': 33.04521560668945, 'learning_rate': 7.875082576621024e-06, 'epoch': 0.33}
+ 33%|███▎      | 1150/3529 [7:29:37<22:29:38, 34.04s/it] 33%|███▎      | 1151/3529 [7:30:12<22:44:57, 34.44s/it] 33%|███▎      | 1152/3529 [7:30:46<22:45:49, 34.48s/it] 33%|███▎      | 1153/3529 [7:31:18<22:14:39, 33.70s/it] 33%|███▎      | 1154/3529 [7:31:53<22:26:20, 34.01s/it] 33%|███▎      | 1155/3529 [7:32:28<22:34:57, 34.25s/it] 33%|███▎      | 1156/3529 [7:33:09<23:53:28, 36.24s/it] 33%|███▎      | 1157/3529 [7:33:47<24:13:16, 36.76s/it] 33%|███▎      | 1158/3529 [7:34:26<24:36:14, 37.36s/it] 33%|███▎      | 1159/3529 [7:34:58<23:38:18, 35.91s/it] 33%|███▎      | 1160/3529 [7:35:33<23:27:21, 35.64s/it]                                                        {'loss': 3.8586, 'grad_norm': 29.72992706298828, 'learning_rate': 7.837417926987496e-06, 'epoch': 0.33}
+ 33%|███▎      | 1160/3529 [7:35:33<23:27:21, 35.64s/it] 33%|███▎      | 1161/3529 [7:36:04<22:34:12, 34.31s/it] 33%|███▎      | 1162/3529 [7:36:35<21:55:39, 33.35s/it] 33%|███▎      | 1163/3529 [7:37:07<21:35:16, 32.85s/it] 33%|███▎      | 1164/3529 [7:37:37<20:55:41, 31.86s/it] 33%|███▎      | 1165/3529 [7:38:10<21:09:07, 32.21s/it] 33%|███▎      | 1166/3529 [7:38:35<19:52:34, 30.28s/it] 33%|███▎      | 1167/3529 [7:39:07<20:11:13, 30.77s/it] 33%|███▎      | 1168/3529 [7:39:37<19:58:45, 30.46s/it] 33%|███▎      | 1169/3529 [7:40:17<21:48:28, 33.27s/it] 33%|███▎      | 1170/3529 [7:40:47<21:09:02, 32.28s/it]                                                        {'loss': 5.6287, 'grad_norm': 22.467132568359375, 'learning_rate': 7.799514272783014e-06, 'epoch': 0.33}
+ 33%|███▎      | 1170/3529 [7:40:47<21:09:02, 32.28s/it] 33%|███▎      | 1171/3529 [7:41:19<21:08:25, 32.28s/it] 33%|███▎      | 1172/3529 [7:41:52<21:09:33, 32.32s/it] 33%|███▎      | 1173/3529 [7:42:29<22:03:50, 33.71s/it] 33%|███▎      | 1174/3529 [7:43:09<23:19:03, 35.64s/it] 33%|███▎      | 1175/3529 [7:43:46<23:43:49, 36.29s/it] 33%|███▎      | 1176/3529 [7:44:19<23:03:49, 35.29s/it] 33%|███▎      | 1177/3529 [7:44:54<22:49:48, 34.94s/it] 33%|███▎      | 1178/3529 [7:45:27<22:25:53, 34.35s/it] 33%|███▎      | 1179/3529 [7:46:00<22:18:12, 34.17s/it] 33%|███▎      | 1180/3529 [7:46:34<22:09:44, 33.97s/it]                                                        {'loss': 3.7462, 'grad_norm': 25.866819381713867, 'learning_rate': 7.761374806750712e-06, 'epoch': 0.33}
+ 33%|███▎      | 1180/3529 [7:46:34<22:09:44, 33.97s/it] 33%|███▎      | 1181/3529 [7:47:07<22:05:44, 33.88s/it] 33%|███▎      | 1182/3529 [7:47:42<22:10:24, 34.01s/it] 34%|███▎      | 1183/3529 [7:48:17<22:21:11, 34.30s/it] 34%|███▎      | 1184/3529 [7:48:52<22:27:19, 34.47s/it] 34%|███▎      | 1185/3529 [7:49:23<21:50:27, 33.54s/it] 34%|███▎      | 1186/3529 [7:49:47<19:56:14, 30.63s/it] 34%|███▎      | 1187/3529 [7:50:17<19:47:30, 30.42s/it] 34%|███▎      | 1188/3529 [7:50:38<17:59:23, 27.66s/it] 34%|███▎      | 1189/3529 [7:51:06<18:07:15, 27.88s/it] 34%|███▎      | 1190/3529 [7:51:37<18:37:23, 28.66s/it]                                                        {'loss': 5.6068, 'grad_norm': 21.801698684692383, 'learning_rate': 7.723002741496892e-06, 'epoch': 0.34}
+ 34%|███▎      | 1190/3529 [7:51:37<18:37:23, 28.66s/it] 34%|███▎      | 1191/3529 [7:52:05<18:31:23, 28.52s/it] 34%|███▍      | 1192/3529 [7:52:34<18:35:48, 28.65s/it] 34%|███▍      | 1193/3529 [7:53:01<18:17:51, 28.20s/it] 34%|███▍      | 1194/3529 [7:53:32<18:48:02, 28.99s/it] 34%|███▍      | 1195/3529 [7:54:10<20:31:33, 31.66s/it] 34%|███▍      | 1196/3529 [7:54:44<21:01:05, 32.43s/it] 34%|███▍      | 1197/3529 [7:55:13<20:17:59, 31.34s/it] 34%|███▍      | 1198/3529 [7:55:35<18:29:59, 28.57s/it] 34%|███▍      | 1199/3529 [7:55:55<16:49:10, 25.99s/it] 34%|███▍      | 1200/3529 [7:56:26<17:49:44, 27.56s/it]                                                        {'loss': 5.8573, 'grad_norm': 41.93526840209961, 'learning_rate': 7.684401309220416e-06, 'epoch': 0.34}
+ 34%|███▍      | 1200/3529 [7:56:26<17:49:44, 27.56s/it] 34%|███▍      | 1201/3529 [7:57:01<19:10:31, 29.65s/it] 34%|███▍      | 1202/3529 [7:57:33<19:46:14, 30.59s/it] 34%|███▍      | 1203/3529 [7:58:08<20:37:24, 31.92s/it] 34%|███▍      | 1204/3529 [7:58:41<20:44:53, 32.13s/it] 34%|███▍      | 1205/3529 [7:59:16<21:13:22, 32.88s/it] 34%|███▍      | 1206/3529 [7:59:38<19:09:46, 29.70s/it] 34%|███▍      | 1207/3529 [8:00:10<19:39:54, 30.49s/it] 34%|███▍      | 1208/3529 [8:00:47<20:56:28, 32.48s/it] 34%|███▍      | 1209/3529 [8:01:24<21:47:18, 33.81s/it] 34%|███▍      | 1210/3529 [8:01:59<21:51:15, 33.93s/it]                                                        {'loss': 4.5851, 'grad_norm': 23.245235443115234, 'learning_rate': 7.645573761440444e-06, 'epoch': 0.34}
+ 34%|███▍      | 1210/3529 [8:01:59<21:51:15, 33.93s/it] 34%|███▍      | 1211/3529 [8:02:35<22:16:10, 34.59s/it] 34%|███▍      | 1212/3529 [8:03:15<23:22:16, 36.31s/it] 34%|███▍      | 1213/3529 [8:03:42<21:38:54, 33.65s/it] 34%|███▍      | 1214/3529 [8:04:18<21:58:43, 34.18s/it] 34%|███▍      | 1215/3529 [8:04:42<20:02:38, 31.18s/it] 34%|███▍      | 1216/3529 [8:05:20<21:23:25, 33.29s/it] 34%|███▍      | 1217/3529 [8:05:58<22:08:27, 34.48s/it] 35%|███▍      | 1218/3529 [8:06:21<19:57:51, 31.10s/it] 35%|███▍      | 1219/3529 [8:06:54<20:26:01, 31.84s/it] 35%|███▍      | 1220/3529 [8:07:16<18:32:34, 28.91s/it]                                                        {'loss': 6.4644, 'grad_norm': 24.502330780029297, 'learning_rate': 7.606523368722554e-06, 'epoch': 0.35}
+ 35%|███▍      | 1220/3529 [8:07:16<18:32:34, 28.91s/it] 35%|███▍      | 1221/3529 [8:07:54<20:15:15, 31.59s/it] 35%|███▍      | 1222/3529 [8:08:34<21:47:27, 34.00s/it] 35%|███▍      | 1223/3529 [8:09:12<22:31:40, 35.17s/it] 35%|███▍      | 1224/3529 [8:09:47<22:33:49, 35.24s/it] 35%|███▍      | 1225/3529 [8:10:26<23:10:37, 36.21s/it] 35%|███▍      | 1226/3529 [8:11:04<23:36:05, 36.89s/it] 35%|███▍      | 1227/3529 [8:11:36<22:39:52, 35.44s/it] 35%|███▍      | 1228/3529 [8:12:00<20:28:58, 32.05s/it] 35%|███▍      | 1229/3529 [8:12:40<21:55:49, 34.33s/it] 35%|███▍      | 1230/3529 [8:13:19<22:44:04, 35.60s/it]                                                        {'loss': 5.6877, 'grad_norm': 16.042354583740234, 'learning_rate': 7.567253420403249e-06, 'epoch': 0.35}
+ 35%|███▍      | 1230/3529 [8:13:19<22:44:04, 35.60s/it] 35%|███▍      | 1231/3529 [8:13:44<20:45:03, 32.51s/it] 35%|███▍      | 1232/3529 [8:14:18<21:01:06, 32.94s/it] 35%|███▍      | 1233/3529 [8:15:06<23:59:39, 37.62s/it] 35%|███▍      | 1234/3529 [8:15:49<24:55:33, 39.10s/it] 35%|███▍      | 1235/3529 [8:16:32<25:39:46, 40.27s/it] 35%|███▌      | 1236/3529 [8:17:10<25:19:55, 39.77s/it] 35%|███▌      | 1237/3529 [8:17:53<25:44:54, 40.44s/it] 35%|███▌      | 1238/3529 [8:18:29<25:01:02, 39.31s/it] 35%|███▌      | 1239/3529 [8:19:13<25:54:51, 40.74s/it] 35%|███▌      | 1240/3529 [8:19:53<25:44:15, 40.48s/it]                                                        {'loss': 4.764, 'grad_norm': 26.405628204345703, 'learning_rate': 7.527767224312883e-06, 'epoch': 0.35}
+ 35%|███▌      | 1240/3529 [8:19:53<25:44:15, 40.48s/it] 35%|███▌      | 1241/3529 [8:20:35<25:58:08, 40.86s/it] 35%|███▌      | 1242/3529 [8:21:16<25:55:02, 40.80s/it] 35%|███▌      | 1243/3529 [8:21:53<25:16:55, 39.81s/it] 35%|███▌      | 1244/3529 [8:22:18<22:23:29, 35.28s/it] 35%|███▌      | 1245/3529 [8:22:53<22:27:25, 35.40s/it] 35%|███▌      | 1246/3529 [8:23:31<22:48:30, 35.97s/it] 35%|███▌      | 1247/3529 [8:24:10<23:25:43, 36.96s/it] 35%|███▌      | 1248/3529 [8:24:54<24:46:09, 39.09s/it] 35%|███▌      | 1249/3529 [8:25:14<21:12:05, 33.48s/it] 35%|███▌      | 1250/3529 [8:25:51<21:44:35, 34.35s/it]                                                        {'loss': 5.8002, 'grad_norm': 40.40938186645508, 'learning_rate': 7.488068106497035e-06, 'epoch': 0.35}
+ 35%|███▌      | 1250/3529 [8:25:51<21:44:35, 34.35s/it] 35%|███▌      | 1251/3529 [8:26:30<22:42:37, 35.89s/it] 35%|███▌      | 1252/3529 [8:27:08<23:03:16, 36.45s/it] 36%|███▌      | 1253/3529 [8:27:35<21:15:20, 33.62s/it] 36%|███▌      | 1254/3529 [8:27:55<18:41:21, 29.57s/it] 36%|███▌      | 1255/3529 [8:28:31<19:53:44, 31.50s/it] 36%|███▌      | 1256/3529 [8:29:10<21:13:50, 33.63s/it] 36%|███▌      | 1257/3529 [8:29:46<21:46:25, 34.50s/it] 36%|███▌      | 1258/3529 [8:30:26<22:45:35, 36.08s/it] 36%|███▌      | 1259/3529 [8:31:07<23:43:51, 37.63s/it] 36%|███▌      | 1260/3529 [8:31:28<20:27:32, 32.46s/it]                                                        {'loss': 5.5113, 'grad_norm': 25.338321685791016, 'learning_rate': 7.448159410936348e-06, 'epoch': 0.36}
+ 36%|███▌      | 1260/3529 [8:31:28<20:27:32, 32.46s/it] 36%|███▌      | 1261/3529 [8:32:05<21:17:40, 33.80s/it] 36%|███▌      | 1262/3529 [8:32:42<22:00:23, 34.95s/it] 36%|███▌      | 1263/3529 [8:33:26<23:35:49, 37.49s/it] 36%|███▌      | 1264/3529 [8:34:05<23:59:39, 38.14s/it] 36%|███▌      | 1265/3529 [8:34:52<25:36:35, 40.72s/it] 36%|███▌      | 1266/3529 [8:35:28<24:41:34, 39.28s/it] 36%|███▌      | 1267/3529 [8:36:07<24:33:31, 39.09s/it] 36%|███▌      | 1268/3529 [8:36:30<21:30:52, 34.26s/it] 36%|███▌      | 1269/3529 [8:37:05<21:44:09, 34.62s/it] 36%|███▌      | 1270/3529 [8:37:44<22:33:51, 35.96s/it]                                                        {'loss': 5.5444, 'grad_norm': 39.411128997802734, 'learning_rate': 7.4080444992648534e-06, 'epoch': 0.36}
+ 36%|███▌      | 1270/3529 [8:37:44<22:33:51, 35.96s/it] 36%|███▌      | 1271/3529 [8:38:24<23:14:20, 37.05s/it] 36%|███▌      | 1272/3529 [8:39:02<23:26:20, 37.39s/it] 36%|███▌      | 1273/3529 [8:39:38<23:05:38, 36.85s/it] 36%|███▌      | 1274/3529 [8:40:20<24:08:01, 38.53s/it] 36%|███▌      | 1275/3529 [8:40:47<21:54:13, 34.98s/it] 36%|███▌      | 1276/3529 [8:41:22<21:58:55, 35.12s/it] 36%|███▌      | 1277/3529 [8:41:58<22:06:56, 35.35s/it] 36%|███▌      | 1278/3529 [8:42:37<22:41:26, 36.29s/it] 36%|███▌      | 1279/3529 [8:43:15<23:10:42, 37.09s/it] 36%|███▋      | 1280/3529 [8:44:01<24:43:21, 39.57s/it]                                                        {'loss': 4.4882, 'grad_norm': 22.218137741088867, 'learning_rate': 7.3677267504868055e-06, 'epoch': 0.36}
+ 36%|███▋      | 1280/3529 [8:44:01<24:43:21, 39.57s/it] 36%|███▋      | 1281/3529 [8:44:38<24:11:53, 38.75s/it] 36%|███▋      | 1282/3529 [8:45:14<23:42:56, 38.00s/it] 36%|███▋      | 1283/3529 [8:45:57<24:38:00, 39.48s/it] 36%|███▋      | 1284/3529 [8:46:20<21:31:50, 34.53s/it] 36%|███▋      | 1285/3529 [8:46:42<19:07:00, 30.67s/it] 36%|███▋      | 1286/3529 [8:47:21<20:43:50, 33.27s/it] 36%|███▋      | 1287/3529 [8:47:57<21:14:53, 34.12s/it] 36%|███▋      | 1288/3529 [8:48:38<22:27:47, 36.09s/it] 37%|███▋      | 1289/3529 [8:49:00<19:58:37, 32.11s/it] 37%|███▋      | 1290/3529 [8:49:29<19:23:02, 31.17s/it]                                                        {'loss': 6.6107, 'grad_norm': 43.15862274169922, 'learning_rate': 7.327209560692063e-06, 'epoch': 0.37}
+ 37%|███▋      | 1290/3529 [8:49:29<19:23:02, 31.17s/it] 37%|███▋      | 1291/3529 [8:50:11<21:23:11, 34.40s/it] 37%|███▋      | 1292/3529 [8:50:47<21:38:09, 34.82s/it] 37%|███▋      | 1293/3529 [8:51:11<19:34:38, 31.52s/it] 37%|███▋      | 1294/3529 [8:51:48<20:31:19, 33.06s/it] 37%|███▋      | 1295/3529 [8:52:23<21:01:08, 33.87s/it] 37%|███▋      | 1296/3529 [8:52:57<20:52:33, 33.66s/it] 37%|███▋      | 1297/3529 [8:53:35<21:47:32, 35.15s/it] 37%|███▋      | 1298/3529 [8:53:59<19:35:06, 31.60s/it] 37%|███▋      | 1299/3529 [8:54:34<20:16:04, 32.72s/it] 37%|███▋      | 1300/3529 [8:55:15<21:51:49, 35.31s/it]                                                        {'loss': 5.6351, 'grad_norm': 20.51604652404785, 'learning_rate': 7.2864963427700284e-06, 'epoch': 0.37}
+ 37%|███▋      | 1300/3529 [8:55:15<21:51:49, 35.31s/it] 37%|███▋      | 1301/3529 [8:55:37<19:15:59, 31.13s/it] 37%|███▋      | 1302/3529 [8:56:18<21:07:39, 34.15s/it] 37%|███▋      | 1303/3529 [8:56:43<19:25:25, 31.41s/it] 37%|███▋      | 1304/3529 [8:57:20<20:28:49, 33.14s/it] 37%|███▋      | 1305/3529 [8:57:57<21:12:26, 34.33s/it] 37%|███▋      | 1306/3529 [8:58:36<22:05:52, 35.79s/it] 37%|███▋      | 1307/3529 [8:59:15<22:41:12, 36.76s/it] 37%|███▋      | 1308/3529 [8:59:55<23:14:13, 37.66s/it] 37%|███▋      | 1309/3529 [9:00:37<24:01:27, 38.96s/it] 37%|███▋      | 1310/3529 [9:01:20<24:47:52, 40.23s/it]                                                        {'loss': 5.7755, 'grad_norm': 21.392065048217773, 'learning_rate': 7.2455905261221585e-06, 'epoch': 0.37}
+ 37%|███▋      | 1310/3529 [9:01:20<24:47:52, 40.23s/it] 37%|███▋      | 1311/3529 [9:02:02<25:05:16, 40.72s/it] 37%|███▋      | 1312/3529 [9:02:43<25:05:22, 40.74s/it] 37%|███▋      | 1313/3529 [9:03:22<24:50:36, 40.36s/it] 37%|███▋      | 1314/3529 [9:03:51<22:42:42, 36.91s/it] 37%|███▋      | 1315/3529 [9:04:11<19:35:00, 31.84s/it] 37%|███▋      | 1316/3529 [9:04:47<20:22:41, 33.15s/it] 37%|███▋      | 1317/3529 [9:05:09<18:08:31, 29.53s/it] 37%|███▋      | 1318/3529 [9:05:42<18:57:06, 30.86s/it] 37%|███▋      | 1319/3529 [9:06:20<20:14:08, 32.96s/it] 37%|███▋      | 1320/3529 [9:07:00<21:28:10, 34.99s/it]                                                        {'loss': 6.5779, 'grad_norm': 28.160072326660156, 'learning_rate': 7.204495556373106e-06, 'epoch': 0.37}
+ 37%|███▋      | 1320/3529 [9:07:00<21:28:10, 34.99s/it] 37%|███▋      | 1321/3529 [9:07:21<18:55:19, 30.85s/it] 37%|███▋      | 1322/3529 [9:08:02<20:42:10, 33.77s/it] 37%|███▋      | 1323/3529 [9:08:42<21:54:45, 35.76s/it] 38%|███▊      | 1324/3529 [9:09:30<24:04:49, 39.31s/it] 38%|███▊      | 1325/3529 [9:10:11<24:29:45, 40.01s/it] 38%|███▊      | 1326/3529 [9:10:33<21:03:29, 34.41s/it] 38%|███▊      | 1327/3529 [9:11:08<21:08:41, 34.57s/it] 38%|███▊      | 1328/3529 [9:11:45<21:34:34, 35.29s/it] 38%|███▊      | 1329/3529 [9:12:06<18:56:59, 31.01s/it] 38%|███▊      | 1330/3529 [9:12:42<19:58:10, 32.69s/it]                                                        {'loss': 6.4435, 'grad_norm': 41.15205764770508, 'learning_rate': 7.163214895080479e-06, 'epoch': 0.38}
+ 38%|███▊      | 1330/3529 [9:12:42<19:58:10, 32.69s/it] 38%|███▊      | 1331/3529 [9:13:16<20:02:22, 32.82s/it] 38%|███▊      | 1332/3529 [9:13:37<17:57:47, 29.43s/it] 38%|███▊      | 1333/3529 [9:13:57<16:12:33, 26.57s/it] 38%|███▊      | 1334/3529 [9:14:36<18:33:41, 30.44s/it] 38%|███▊      | 1335/3529 [9:15:15<20:00:23, 32.83s/it] 38%|███▊      | 1336/3529 [9:15:50<20:27:05, 33.57s/it] 38%|███▊      | 1337/3529 [9:16:31<21:42:46, 35.66s/it] 38%|███▊      | 1338/3529 [9:16:52<19:01:15, 31.25s/it] 38%|███▊      | 1339/3529 [9:17:24<19:13:13, 31.60s/it] 38%|███▊      | 1340/3529 [9:18:02<20:17:57, 33.38s/it]                                                        {'loss': 6.5864, 'grad_norm': 26.100757598876953, 'learning_rate': 7.121752019443266e-06, 'epoch': 0.38}
+ 38%|███▊      | 1340/3529 [9:18:02<20:17:57, 33.38s/it] 38%|███▊      | 1341/3529 [9:18:37<20:42:04, 34.06s/it] 38%|███▊      | 1342/3529 [9:19:07<19:58:23, 32.88s/it] 38%|███▊      | 1343/3529 [9:19:41<20:09:44, 33.20s/it] 38%|███▊      | 1344/3529 [9:20:00<17:33:16, 28.92s/it] 38%|███▊      | 1345/3529 [9:20:38<19:09:53, 31.59s/it] 38%|███▊      | 1346/3529 [9:21:14<19:56:04, 32.87s/it] 38%|███▊      | 1347/3529 [9:21:52<20:48:36, 34.33s/it] 38%|███▊      | 1348/3529 [9:22:26<20:50:47, 34.41s/it] 38%|███▊      | 1349/3529 [9:22:50<18:52:08, 31.16s/it] 38%|███▊      | 1350/3529 [9:23:23<19:10:16, 31.67s/it]                                                        {'loss': 5.6488, 'grad_norm': 41.462791442871094, 'learning_rate': 7.080110422008937e-06, 'epoch': 0.38}
+ 38%|███▊      | 1350/3529 [9:23:23<19:10:16, 31.67s/it] 38%|███▊      | 1351/3529 [9:23:48<17:57:31, 29.68s/it] 38%|███▊      | 1352/3529 [9:24:26<19:26:54, 32.16s/it] 38%|███▊      | 1353/3529 [9:25:08<21:14:34, 35.14s/it] 38%|███▊      | 1354/3529 [9:25:53<22:58:47, 38.04s/it] 38%|███▊      | 1355/3529 [9:26:33<23:22:08, 38.70s/it] 38%|███▊      | 1356/3529 [9:27:11<23:13:02, 38.46s/it] 38%|███▊      | 1357/3529 [9:27:45<22:23:29, 37.11s/it] 38%|███▊      | 1358/3529 [9:28:24<22:44:29, 37.71s/it] 39%|███▊      | 1359/3529 [9:29:01<22:43:41, 37.71s/it] 39%|███▊      | 1360/3529 [9:29:35<21:53:33, 36.34s/it]                                                        {'loss': 4.4922, 'grad_norm': 22.369388580322266, 'learning_rate': 7.038293610379255e-06, 'epoch': 0.39}
+ 39%|███▊      | 1360/3529 [9:29:35<21:53:33, 36.34s/it] 39%|███▊      | 1361/3529 [9:29:54<18:44:38, 31.12s/it] 39%|███▊      | 1362/3529 [9:30:19<17:45:18, 29.50s/it] 39%|███▊      | 1363/3529 [9:30:42<16:28:54, 27.39s/it] 39%|███▊      | 1364/3529 [9:31:04<15:29:15, 25.75s/it] 39%|███▊      | 1365/3529 [9:31:29<15:27:28, 25.72s/it] 39%|███▊      | 1366/3529 [9:32:01<16:29:31, 27.45s/it] 39%|███▊      | 1367/3529 [9:32:25<15:51:20, 26.40s/it] 39%|███▉      | 1368/3529 [9:32:54<16:17:43, 27.15s/it] 39%|███▉      | 1369/3529 [9:33:14<14:59:13, 24.98s/it] 39%|███▉      | 1370/3529 [9:33:49<16:55:43, 28.23s/it]                                                        {'loss': 4.5791, 'grad_norm': 19.927444458007812, 'learning_rate': 6.996305106914824e-06, 'epoch': 0.39}
+ 39%|███▉      | 1370/3529 [9:33:49<16:55:43, 28.23s/it] 39%|███▉      | 1371/3529 [9:34:13<16:01:45, 26.74s/it] 39%|███▉      | 1372/3529 [9:34:52<18:15:57, 30.49s/it] 39%|███▉      | 1373/3529 [9:35:15<16:53:11, 28.20s/it] 39%|███▉      | 1374/3529 [9:35:36<15:34:19, 26.01s/it] 39%|███▉      | 1375/3529 [9:35:59<15:03:02, 25.15s/it] 39%|███▉      | 1376/3529 [9:36:37<17:25:06, 29.13s/it] 39%|███▉      | 1377/3529 [9:37:01<16:32:16, 27.67s/it] 39%|███▉      | 1378/3529 [9:37:33<17:14:54, 28.87s/it] 39%|███▉      | 1379/3529 [9:38:05<17:51:47, 29.91s/it] 39%|███▉      | 1380/3529 [9:38:33<17:30:45, 29.34s/it]                                                        {'loss': 4.5578, 'grad_norm': 25.871030807495117, 'learning_rate': 6.954148448438389e-06, 'epoch': 0.39}
+ 39%|███▉      | 1380/3529 [9:38:33<17:30:45, 29.34s/it] 39%|███▉      | 1381/3529 [9:38:57<16:27:41, 27.59s/it] 39%|███▉      | 1382/3529 [9:39:24<16:25:59, 27.55s/it] 39%|███▉      | 1383/3529 [9:39:48<15:37:20, 26.21s/it] 39%|███▉      | 1384/3529 [9:40:09<14:50:38, 24.91s/it] 39%|███▉      | 1385/3529 [9:40:31<14:10:48, 23.81s/it] 39%|███▉      | 1386/3529 [9:40:52<13:46:19, 23.14s/it] 39%|███▉      | 1387/3529 [9:41:19<14:28:46, 24.34s/it] 39%|███▉      | 1388/3529 [9:41:42<14:07:45, 23.76s/it] 39%|███▉      | 1389/3529 [9:42:07<14:20:53, 24.14s/it] 39%|███▉      | 1390/3529 [9:42:32<14:27:35, 24.34s/it]                                                        {'loss': 4.6252, 'grad_norm': 18.420751571655273, 'learning_rate': 6.911827185936914e-06, 'epoch': 0.39}
+ 39%|███▉      | 1390/3529 [9:42:32<14:27:35, 24.34s/it] 39%|███▉      | 1391/3529 [9:42:55<14:14:53, 23.99s/it] 39%|███▉      | 1392/3529 [9:43:20<14:29:30, 24.41s/it] 39%|███▉      | 1393/3529 [9:43:45<14:38:48, 24.69s/it] 40%|███▉      | 1394/3529 [9:44:06<13:53:18, 23.42s/it] 40%|███▉      | 1395/3529 [9:44:26<13:19:38, 22.48s/it] 40%|███▉      | 1396/3529 [9:44:49<13:23:29, 22.60s/it] 40%|███▉      | 1397/3529 [9:45:10<13:06:49, 22.14s/it] 40%|███▉      | 1398/3529 [9:45:33<13:08:59, 22.21s/it] 40%|███▉      | 1399/3529 [9:45:58<13:40:03, 23.10s/it] 40%|███▉      | 1400/3529 [9:46:20<13:33:27, 22.92s/it]                                                        {'loss': 5.5235, 'grad_norm': 27.263010025024414, 'learning_rate': 6.869344884262473e-06, 'epoch': 0.4}
+ 40%|███▉      | 1400/3529 [9:46:20<13:33:27, 22.92s/it] 40%|███▉      | 1401/3529 [9:46:42<13:17:07, 22.48s/it] 40%|███▉      | 1402/3529 [9:47:03<12:59:57, 22.00s/it] 40%|███▉      | 1403/3529 [9:47:25<13:03:19, 22.11s/it] 40%|███▉      | 1404/3529 [9:47:43<12:23:57, 21.01s/it] 40%|███▉      | 1405/3529 [9:48:04<12:23:16, 21.00s/it] 40%|███▉      | 1406/3529 [9:48:27<12:43:57, 21.59s/it] 40%|███▉      | 1407/3529 [9:48:52<13:16:21, 22.52s/it] 40%|███▉      | 1408/3529 [9:49:17<13:37:58, 23.14s/it] 40%|███▉      | 1409/3529 [9:49:48<15:01:09, 25.50s/it] 40%|███▉      | 1410/3529 [9:50:13<15:04:24, 25.61s/it]                                                        {'loss': 5.6514, 'grad_norm': 24.479764938354492, 'learning_rate': 6.8267051218319766e-06, 'epoch': 0.4}
+ 40%|███▉      | 1410/3529 [9:50:13<15:04:24, 25.61s/it] 40%|███▉      | 1411/3529 [9:50:37<14:43:48, 25.04s/it] 40%|████      | 1412/3529 [9:50:59<14:12:12, 24.15s/it] 40%|████      | 1413/3529 [9:51:20<13:40:14, 23.26s/it] 40%|████      | 1414/3529 [9:51:41<13:15:14, 22.56s/it] 40%|████      | 1415/3529 [9:52:01<12:38:53, 21.54s/it] 40%|████      | 1416/3529 [9:52:20<12:21:09, 21.05s/it] 40%|████      | 1417/3529 [9:52:41<12:13:02, 20.82s/it] 40%|████      | 1418/3529 [9:52:59<11:50:44, 20.20s/it] 40%|████      | 1419/3529 [9:53:22<12:12:25, 20.83s/it] 40%|████      | 1420/3529 [9:53:43<12:20:20, 21.06s/it]                                                        {'loss': 7.5326, 'grad_norm': 23.21695899963379, 'learning_rate': 6.7839114903257404e-06, 'epoch': 0.4}
+ 40%|████      | 1420/3529 [9:53:43<12:20:20, 21.06s/it] 40%|████      | 1421/3529 [9:54:11<13:28:17, 23.01s/it] 40%|████      | 1422/3529 [9:54:31<12:57:35, 22.14s/it] 40%|████      | 1423/3529 [9:54:54<13:02:22, 22.29s/it] 40%|████      | 1424/3529 [9:55:16<13:04:57, 22.37s/it] 40%|████      | 1425/3529 [9:55:42<13:39:27, 23.37s/it] 40%|████      | 1426/3529 [9:56:04<13:28:57, 23.08s/it] 40%|████      | 1427/3529 [9:56:27<13:23:36, 22.94s/it] 40%|████      | 1428/3529 [9:56:51<13:36:10, 23.31s/it] 40%|████      | 1429/3529 [9:57:13<13:23:56, 22.97s/it] 41%|████      | 1430/3529 [9:57:34<12:56:15, 22.19s/it]                                                        {'loss': 3.895, 'grad_norm': 21.287368774414062, 'learning_rate': 6.74096759438496e-06, 'epoch': 0.41}
+ 41%|████      | 1430/3529 [9:57:34<12:56:15, 22.19s/it] 41%|████      | 1431/3529 [9:57:56<13:01:20, 22.35s/it] 41%|████      | 1432/3529 [9:58:18<12:51:11, 22.07s/it] 41%|████      | 1433/3529 [9:58:37<12:22:58, 21.27s/it] 41%|████      | 1434/3529 [9:58:57<12:07:28, 20.83s/it] 41%|████      | 1435/3529 [9:59:19<12:18:41, 21.17s/it] 41%|████      | 1436/3529 [9:59:43<12:53:03, 22.16s/it] 41%|████      | 1437/3529 [10:00:07<13:03:05, 22.46s/it] 41%|████      | 1438/3529 [10:00:31<13:23:41, 23.06s/it] 41%|████      | 1439/3529 [10:00:53<13:15:53, 22.85s/it] 41%|████      | 1440/3529 [10:01:15<13:00:14, 22.41s/it]                                                         {'loss': 6.3928, 'grad_norm': 25.839454650878906, 'learning_rate': 6.697877051308067e-06, 'epoch': 0.41}
+ 41%|████      | 1440/3529 [10:01:15<13:00:14, 22.41s/it] 41%|████      | 1441/3529 [10:01:36<12:46:33, 22.03s/it] 41%|████      | 1442/3529 [10:01:58<12:51:11, 22.17s/it] 41%|████      | 1443/3529 [10:02:21<12:53:48, 22.26s/it] 41%|████      | 1444/3529 [10:02:47<13:33:26, 23.41s/it] 41%|████      | 1445/3529 [10:03:09<13:23:39, 23.14s/it] 41%|████      | 1446/3529 [10:03:36<14:03:16, 24.29s/it] 41%|████      | 1447/3529 [10:04:04<14:41:21, 25.40s/it] 41%|████      | 1448/3529 [10:04:31<14:54:11, 25.78s/it] 41%|████      | 1449/3529 [10:04:57<14:57:29, 25.89s/it] 41%|████      | 1450/3529 [10:05:30<16:10:06, 28.00s/it]                                                         {'loss': 4.5232, 'grad_norm': 22.896682739257812, 'learning_rate': 6.654643490746042e-06, 'epoch': 0.41}
+ 41%|████      | 1450/3529 [10:05:30<16:10:06, 28.00s/it] 41%|████      | 1451/3529 [10:05:52<15:02:19, 26.05s/it] 41%|████      | 1452/3529 [10:06:15<14:34:41, 25.27s/it] 41%|████      | 1453/3529 [10:06:44<15:15:02, 26.45s/it] 41%|████      | 1454/3529 [10:07:12<15:27:15, 26.81s/it] 41%|████      | 1455/3529 [10:07:33<14:26:29, 25.07s/it] 41%|████▏     | 1456/3529 [10:07:56<14:04:23, 24.44s/it] 41%|████▏     | 1457/3529 [10:08:22<14:21:25, 24.94s/it] 41%|████▏     | 1458/3529 [10:08:46<14:14:15, 24.75s/it] 41%|████▏     | 1459/3529 [10:09:12<14:24:42, 25.06s/it] 41%|████▏     | 1460/3529 [10:09:40<14:54:21, 25.94s/it]                                                         {'loss': 6.5998, 'grad_norm': 25.252422332763672, 'learning_rate': 6.611270554396676e-06, 'epoch': 0.41}
+ 41%|████▏     | 1460/3529 [10:09:40<14:54:21, 25.94s/it] 41%|████▏     | 1461/3529 [10:10:08<15:13:00, 26.49s/it] 41%|████▏     | 1462/3529 [10:10:30<14:31:28, 25.30s/it] 41%|████▏     | 1463/3529 [10:10:59<15:05:20, 26.29s/it] 41%|████▏     | 1464/3529 [10:11:22<14:27:15, 25.20s/it] 42%|████▏     | 1465/3529 [10:11:43<13:42:36, 23.91s/it] 42%|████▏     | 1466/3529 [10:12:06<13:38:25, 23.80s/it] 42%|████▏     | 1467/3529 [10:12:32<13:55:17, 24.31s/it] 42%|████▏     | 1468/3529 [10:12:55<13:39:56, 23.87s/it] 42%|████▏     | 1469/3529 [10:13:17<13:23:39, 23.41s/it] 42%|████▏     | 1470/3529 [10:13:42<13:42:29, 23.97s/it]                                                         {'loss': 4.6121, 'grad_norm': 24.610836029052734, 'learning_rate': 6.567761895697816e-06, 'epoch': 0.42}
+ 42%|████▏     | 1470/3529 [10:13:42<13:42:29, 23.97s/it] 42%|████▏     | 1471/3529 [10:14:13<14:56:39, 26.14s/it] 42%|████▏     | 1472/3529 [10:14:36<14:18:41, 25.05s/it] 42%|████▏     | 1473/3529 [10:14:58<13:51:41, 24.27s/it] 42%|████▏     | 1474/3529 [10:15:22<13:41:14, 23.98s/it] 42%|████▏     | 1475/3529 [10:15:47<13:56:58, 24.45s/it] 42%|████▏     | 1476/3529 [10:16:10<13:36:13, 23.85s/it] 42%|████▏     | 1477/3529 [10:16:34<13:38:38, 23.94s/it] 42%|████▏     | 1478/3529 [10:16:59<13:48:58, 24.25s/it] 42%|████▏     | 1479/3529 [10:17:25<14:12:02, 24.94s/it] 42%|████▏     | 1480/3529 [10:17:49<13:55:11, 24.46s/it]                                                         {'loss': 3.6029, 'grad_norm': 19.092580795288086, 'learning_rate': 6.524121179519625e-06, 'epoch': 0.42}
+ 42%|████▏     | 1480/3529 [10:17:49<13:55:11, 24.46s/it] 42%|████▏     | 1481/3529 [10:18:13<13:49:34, 24.30s/it] 42%|████▏     | 1482/3529 [10:18:35<13:29:38, 23.73s/it] 42%|████▏     | 1483/3529 [10:18:58<13:17:40, 23.39s/it] 42%|████▏     | 1484/3529 [10:19:23<13:43:12, 24.15s/it] 42%|████▏     | 1485/3529 [10:19:46<13:31:29, 23.82s/it] 42%|████▏     | 1486/3529 [10:20:08<13:02:50, 22.99s/it] 42%|████▏     | 1487/3529 [10:20:34<13:33:55, 23.92s/it] 42%|████▏     | 1488/3529 [10:20:56<13:18:54, 23.49s/it] 42%|████▏     | 1489/3529 [10:21:22<13:43:15, 24.21s/it] 42%|████▏     | 1490/3529 [10:21:49<14:06:15, 24.90s/it]                                                         {'loss': 3.6352, 'grad_norm': 22.915136337280273, 'learning_rate': 6.480352081855884e-06, 'epoch': 0.42}
+ 42%|████▏     | 1490/3529 [10:21:49<14:06:15, 24.90s/it] 42%|████▏     | 1491/3529 [10:22:15<14:17:09, 25.24s/it] 42%|████▏     | 1492/3529 [10:22:36<13:34:49, 24.00s/it] 42%|████▏     | 1493/3529 [10:22:57<13:04:16, 23.11s/it] 42%|████▏     | 1494/3529 [10:23:18<12:49:43, 22.69s/it] 42%|████▏     | 1495/3529 [10:23:44<13:15:13, 23.46s/it] 42%|████▏     | 1496/3529 [10:24:06<13:04:20, 23.15s/it] 42%|████▏     | 1497/3529 [10:24:31<13:18:57, 23.59s/it] 42%|████▏     | 1498/3529 [10:24:53<13:05:54, 23.22s/it] 42%|████▏     | 1499/3529 [10:25:16<12:57:50, 22.99s/it] 43%|████▎     | 1500/3529 [10:25:40<13:14:25, 23.49s/it]                                                         {'loss': 4.6979, 'grad_norm': 29.044233322143555, 'learning_rate': 6.436458289514342e-06, 'epoch': 0.42}
+ 43%|████▎     | 1500/3529 [10:25:40<13:14:25, 23.49s/it] 43%|████▎     | 1501/3529 [10:26:03<13:02:51, 23.16s/it] 43%|████▎     | 1502/3529 [10:26:25<12:55:16, 22.95s/it] 43%|████▎     | 1503/3529 [10:26:47<12:48:11, 22.75s/it] 43%|████▎     | 1504/3529 [10:27:09<12:41:14, 22.56s/it] 43%|████▎     | 1505/3529 [10:27:34<13:04:34, 23.26s/it] 43%|████▎     | 1506/3529 [10:27:57<12:54:27, 22.97s/it] 43%|████▎     | 1507/3529 [10:28:29<14:27:53, 25.75s/it] 43%|████▎     | 1508/3529 [10:28:54<14:17:48, 25.47s/it] 43%|████▎     | 1509/3529 [10:29:15<13:33:26, 24.16s/it] 43%|████▎     | 1510/3529 [10:29:36<13:01:28, 23.22s/it]                                                         {'loss': 4.6673, 'grad_norm': 39.80937194824219, 'learning_rate': 6.392443499806175e-06, 'epoch': 0.43}
+ 43%|████▎     | 1510/3529 [10:29:36<13:01:28, 23.22s/it] 43%|████▎     | 1511/3529 [10:30:02<13:29:36, 24.07s/it] 43%|████▎     | 1512/3529 [10:30:28<13:46:45, 24.59s/it] 43%|████▎     | 1513/3529 [10:30:54<14:05:00, 25.15s/it] 43%|████▎     | 1514/3529 [10:31:16<13:36:16, 24.31s/it] 43%|████▎     | 1515/3529 [10:31:37<12:58:19, 23.19s/it] 43%|████▎     | 1516/3529 [10:32:00<12:53:15, 23.05s/it] 43%|████▎     | 1517/3529 [10:32:21<12:34:39, 22.50s/it] 43%|████▎     | 1518/3529 [10:32:42<12:16:02, 21.96s/it] 43%|████▎     | 1519/3529 [10:33:01<11:53:50, 21.31s/it] 43%|████▎     | 1520/3529 [10:33:23<11:58:21, 21.45s/it]                                                         {'loss': 4.6801, 'grad_norm': 22.760765075683594, 'learning_rate': 6.348311420234542e-06, 'epoch': 0.43}
+ 43%|████▎     | 1520/3529 [10:33:23<11:58:21, 21.45s/it] 43%|████▎     | 1521/3529 [10:33:51<13:03:43, 23.42s/it] 43%|████▎     | 1522/3529 [10:34:13<12:41:41, 22.77s/it] 43%|████▎     | 1523/3529 [10:34:34<12:25:26, 22.30s/it] 43%|████▎     | 1524/3529 [10:34:58<12:42:26, 22.82s/it] 43%|████▎     | 1525/3529 [10:35:22<12:54:25, 23.19s/it] 43%|████▎     | 1526/3529 [10:35:52<14:08:24, 25.41s/it] 43%|████▎     | 1527/3529 [10:36:14<13:25:36, 24.14s/it] 43%|████▎     | 1528/3529 [10:36:34<12:51:44, 23.14s/it] 43%|████▎     | 1529/3529 [10:36:57<12:44:28, 22.93s/it] 43%|████▎     | 1530/3529 [10:37:17<12:19:39, 22.20s/it]                                                         {'loss': 5.7451, 'grad_norm': 21.216337203979492, 'learning_rate': 6.304065768182295e-06, 'epoch': 0.43}
+ 43%|████▎     | 1530/3529 [10:37:17<12:19:39, 22.20s/it] 43%|████▎     | 1531/3529 [10:37:40<12:28:58, 22.49s/it] 43%|████▎     | 1532/3529 [10:38:10<13:34:29, 24.47s/it] 43%|████▎     | 1533/3529 [10:38:34<13:37:04, 24.56s/it] 43%|████▎     | 1534/3529 [10:39:00<13:46:40, 24.86s/it] 43%|████▎     | 1535/3529 [10:39:23<13:30:06, 24.38s/it] 44%|████▎     | 1536/3529 [10:39:44<12:54:09, 23.31s/it] 44%|████▎     | 1537/3529 [10:40:05<12:33:33, 22.70s/it] 44%|████▎     | 1538/3529 [10:40:30<12:51:08, 23.24s/it] 44%|████▎     | 1539/3529 [10:40:55<13:13:42, 23.93s/it] 44%|████▎     | 1540/3529 [10:41:15<12:31:44, 22.68s/it]                                                         {'loss': 5.6216, 'grad_norm': 20.622943878173828, 'learning_rate': 6.259710270598848e-06, 'epoch': 0.44}
+ 44%|████▎     | 1540/3529 [10:41:15<12:31:44, 22.68s/it] 44%|████▎     | 1541/3529 [10:41:42<13:11:50, 23.90s/it] 44%|████▎     | 1542/3529 [10:42:05<13:02:38, 23.63s/it] 44%|████▎     | 1543/3529 [10:42:27<12:50:10, 23.27s/it] 44%|████▍     | 1544/3529 [10:42:56<13:42:20, 24.86s/it] 44%|████▍     | 1545/3529 [10:43:16<12:55:36, 23.46s/it] 44%|████▍     | 1546/3529 [10:43:37<12:30:51, 22.72s/it] 44%|████▍     | 1547/3529 [10:44:00<12:33:41, 22.82s/it] 44%|████▍     | 1548/3529 [10:44:21<12:16:37, 22.31s/it] 44%|████▍     | 1549/3529 [10:44:41<11:52:05, 21.58s/it] 44%|████▍     | 1550/3529 [10:45:02<11:49:02, 21.50s/it]                                                         {'loss': 6.5508, 'grad_norm': 40.299949645996094, 'learning_rate': 6.215248663686251e-06, 'epoch': 0.44}
+ 44%|████▍     | 1550/3529 [10:45:02<11:49:02, 21.50s/it] 44%|████▍     | 1551/3529 [10:45:25<12:04:31, 21.98s/it] 44%|████▍     | 1552/3529 [10:45:50<12:28:15, 22.71s/it] 44%|████▍     | 1553/3529 [10:46:09<11:56:49, 21.77s/it] 44%|████▍     | 1554/3529 [10:46:41<13:37:51, 24.85s/it] 44%|████▍     | 1555/3529 [10:47:07<13:48:50, 25.19s/it] 44%|████▍     | 1556/3529 [10:47:35<14:10:30, 25.86s/it] 44%|████▍     | 1557/3529 [10:47:57<13:36:59, 24.86s/it] 44%|████▍     | 1558/3529 [10:48:20<13:15:27, 24.22s/it] 44%|████▍     | 1559/3529 [10:48:52<14:33:35, 26.61s/it] 44%|████▍     | 1560/3529 [10:49:15<13:51:27, 25.34s/it]                                                         {'loss': 3.5039, 'grad_norm': 28.81671905517578, 'learning_rate': 6.170684692584469e-06, 'epoch': 0.44}
+ 44%|████▍     | 1560/3529 [10:49:15<13:51:27, 25.34s/it] 44%|████▍     | 1561/3529 [10:49:39<13:43:56, 25.12s/it] 44%|████▍     | 1562/3529 [10:50:13<15:03:59, 27.57s/it] 44%|████▍     | 1563/3529 [10:50:34<14:01:05, 25.67s/it] 44%|████▍     | 1564/3529 [10:50:55<13:13:40, 24.23s/it] 44%|████▍     | 1565/3529 [10:51:19<13:09:41, 24.12s/it] 44%|████▍     | 1566/3529 [10:51:37<12:17:46, 22.55s/it] 44%|████▍     | 1567/3529 [10:51:59<12:06:32, 22.22s/it] 44%|████▍     | 1568/3529 [10:52:23<12:29:48, 22.94s/it] 44%|████▍     | 1569/3529 [10:52:47<12:36:05, 23.15s/it] 44%|████▍     | 1570/3529 [10:53:08<12:16:17, 22.55s/it]                                                         {'loss': 6.4925, 'grad_norm': 43.010169982910156, 'learning_rate': 6.126022111055929e-06, 'epoch': 0.44}
+ 44%|████▍     | 1570/3529 [10:53:08<12:16:17, 22.55s/it] 45%|████▍     | 1571/3529 [10:53:32<12:30:58, 23.01s/it] 45%|████▍     | 1572/3529 [10:54:00<13:19:58, 24.53s/it] 45%|████▍     | 1573/3529 [10:54:29<14:00:28, 25.78s/it] 45%|████▍     | 1574/3529 [10:54:59<14:40:09, 27.01s/it] 45%|████▍     | 1575/3529 [10:55:29<15:13:12, 28.04s/it] 45%|████▍     | 1576/3529 [10:55:59<15:27:28, 28.49s/it] 45%|████▍     | 1577/3529 [10:56:21<14:25:44, 26.61s/it] 45%|████▍     | 1578/3529 [10:56:46<14:11:32, 26.19s/it] 45%|████▍     | 1579/3529 [10:57:10<13:48:46, 25.50s/it] 45%|████▍     | 1580/3529 [10:57:34<13:29:53, 24.93s/it]                                                         {'loss': 3.4456, 'grad_norm': 23.351240158081055, 'learning_rate': 6.081264681169317e-06, 'epoch': 0.45}
+ 45%|████▍     | 1580/3529 [10:57:34<13:29:53, 24.93s/it] 45%|████▍     | 1581/3529 [10:58:00<13:36:35, 25.15s/it] 45%|████▍     | 1582/3529 [10:58:22<13:13:52, 24.46s/it] 45%|████▍     | 1583/3529 [10:58:45<12:57:05, 23.96s/it] 45%|████▍     | 1584/3529 [10:59:16<13:59:33, 25.90s/it] 45%|████▍     | 1585/3529 [10:59:46<14:42:40, 27.24s/it] 45%|████▍     | 1586/3529 [11:00:10<14:08:50, 26.21s/it] 45%|████▍     | 1587/3529 [11:00:42<15:03:14, 27.91s/it] 45%|████▍     | 1588/3529 [11:01:08<14:43:33, 27.31s/it] 45%|████▌     | 1589/3529 [11:01:29<13:46:37, 25.57s/it] 45%|████▌     | 1590/3529 [11:01:49<12:53:49, 23.95s/it]                                                         {'loss': 4.4953, 'grad_norm': 40.19292449951172, 'learning_rate': 6.0364161729826905e-06, 'epoch': 0.45}
+ 45%|████▌     | 1590/3529 [11:01:49<12:53:49, 23.95s/it] 45%|████▌     | 1591/3529 [11:02:09<12:12:30, 22.68s/it] 45%|████▌     | 1592/3529 [11:02:32<12:16:54, 22.83s/it] 45%|████▌     | 1593/3529 [11:02:57<12:39:17, 23.53s/it] 45%|████▌     | 1594/3529 [11:03:21<12:42:59, 23.66s/it] 45%|████▌     | 1595/3529 [11:03:54<14:07:01, 26.28s/it] 45%|████▌     | 1596/3529 [11:04:16<13:29:59, 25.14s/it] 45%|████▌     | 1597/3529 [11:04:39<13:06:28, 24.42s/it] 45%|████▌     | 1598/3529 [11:05:02<12:55:32, 24.10s/it] 45%|████▌     | 1599/3529 [11:05:28<13:09:54, 24.56s/it] 45%|████▌     | 1600/3529 [11:05:49<12:32:43, 23.41s/it]                                                         {'loss': 6.2619, 'grad_norm': 25.595369338989258, 'learning_rate': 5.991480364225924e-06, 'epoch': 0.45}
+ 45%|████▌     | 1600/3529 [11:05:49<12:32:43, 23.41s/it] 45%|████▌     | 1601/3529 [11:06:14<12:50:59, 23.99s/it] 45%|████▌     | 1602/3529 [11:06:43<13:39:02, 25.50s/it] 45%|████▌     | 1603/3529 [11:07:06<13:13:06, 24.71s/it] 45%|████▌     | 1604/3529 [11:07:27<12:39:55, 23.69s/it] 45%|████▌     | 1605/3529 [11:07:52<12:47:24, 23.93s/it] 46%|████▌     | 1606/3529 [11:08:24<14:05:53, 26.39s/it] 46%|████▌     | 1607/3529 [11:08:49<13:55:14, 26.07s/it] 46%|████▌     | 1608/3529 [11:09:25<15:27:13, 28.96s/it] 46%|████▌     | 1609/3529 [11:09:53<15:14:06, 28.57s/it] 46%|████▌     | 1610/3529 [11:10:15<14:16:30, 26.78s/it]                                                         {'loss': 5.5702, 'grad_norm': 32.5233268737793, 'learning_rate': 5.946461039982485e-06, 'epoch': 0.46}
+ 46%|████▌     | 1610/3529 [11:10:15<14:16:30, 26.78s/it] 46%|████▌     | 1611/3529 [11:10:43<14:26:26, 27.10s/it] 46%|████▌     | 1612/3529 [11:11:07<13:52:26, 26.05s/it] 46%|████▌     | 1613/3529 [11:11:31<13:40:27, 25.69s/it] 46%|████▌     | 1614/3529 [11:12:02<14:25:24, 27.11s/it] 46%|████▌     | 1615/3529 [11:12:25<13:45:48, 25.89s/it] 46%|████▌     | 1616/3529 [11:12:51<13:48:53, 26.00s/it] 46%|████▌     | 1617/3529 [11:13:19<14:03:13, 26.46s/it] 46%|████▌     | 1618/3529 [11:13:47<14:19:59, 27.00s/it] 46%|████▌     | 1619/3529 [11:14:15<14:30:02, 27.33s/it] 46%|████▌     | 1620/3529 [11:14:43<14:31:23, 27.39s/it]                                                         {'loss': 3.5389, 'grad_norm': 25.565658569335938, 'learning_rate': 5.901361992370614e-06, 'epoch': 0.46}
+ 46%|████▌     | 1620/3529 [11:14:43<14:31:23, 27.39s/it] 46%|████▌     | 1621/3529 [11:15:15<15:14:29, 28.76s/it] 46%|████▌     | 1622/3529 [11:15:38<14:26:34, 27.26s/it] 46%|████▌     | 1623/3529 [11:16:06<14:25:28, 27.24s/it] 46%|████▌     | 1624/3529 [11:16:33<14:32:11, 27.47s/it] 46%|████▌     | 1625/3529 [11:16:56<13:40:27, 25.85s/it] 46%|████▌     | 1626/3529 [11:17:24<14:07:41, 26.73s/it] 46%|████▌     | 1627/3529 [11:17:53<14:23:12, 27.23s/it] 46%|████▌     | 1628/3529 [11:18:18<14:06:15, 26.71s/it] 46%|████▌     | 1629/3529 [11:18:50<14:52:42, 28.19s/it] 46%|████▌     | 1630/3529 [11:19:16<14:34:58, 27.65s/it]                                                         {'loss': 4.6532, 'grad_norm': 21.443763732910156, 'learning_rate': 5.856187020223901e-06, 'epoch': 0.46}
+ 46%|████▌     | 1630/3529 [11:19:16<14:34:58, 27.65s/it] 46%|████▌     | 1631/3529 [11:19:36<13:16:58, 25.19s/it] 46%|████▌     | 1632/3529 [11:19:58<12:47:39, 24.28s/it] 46%|████▋     | 1633/3529 [11:20:30<14:04:04, 26.71s/it] 46%|████▋     | 1634/3529 [11:20:52<13:18:36, 25.29s/it] 46%|████▋     | 1635/3529 [11:21:17<13:15:01, 25.19s/it] 46%|████▋     | 1636/3529 [11:21:42<13:11:00, 25.07s/it] 46%|████▋     | 1637/3529 [11:22:12<13:53:16, 26.43s/it] 46%|████▋     | 1638/3529 [11:22:40<14:13:07, 27.07s/it] 46%|████▋     | 1639/3529 [11:23:13<15:03:02, 28.67s/it] 46%|████▋     | 1640/3529 [11:23:45<15:41:38, 29.91s/it]                                                         {'loss': 5.7745, 'grad_norm': 26.775903701782227, 'learning_rate': 5.8109399287712935e-06, 'epoch': 0.46}
+ 46%|████▋     | 1640/3529 [11:23:45<15:41:38, 29.91s/it] 47%|████▋     | 1641/3529 [11:24:12<15:13:39, 29.04s/it] 47%|████▋     | 1642/3529 [11:24:39<14:46:03, 28.17s/it] 47%|████▋     | 1643/3529 [11:25:17<16:23:10, 31.28s/it] 47%|████▋     | 1644/3529 [11:25:38<14:48:59, 28.30s/it] 47%|████▋     | 1645/3529 [11:25:59<13:32:26, 25.87s/it] 47%|████▋     | 1646/3529 [11:26:23<13:14:05, 25.30s/it] 47%|████▋     | 1647/3529 [11:26:49<13:20:13, 25.51s/it] 47%|████▋     | 1648/3529 [11:27:14<13:20:54, 25.55s/it] 47%|████▋     | 1649/3529 [11:27:41<13:34:25, 25.99s/it] 47%|████▋     | 1650/3529 [11:28:07<13:31:26, 25.91s/it]                                                         {'loss': 5.506, 'grad_norm': 20.02845001220703, 'learning_rate': 5.765624529316573e-06, 'epoch': 0.47}
+ 47%|████▋     | 1650/3529 [11:28:07<13:31:26, 25.91s/it] 47%|████▋     | 1651/3529 [11:28:30<13:05:45, 25.10s/it] 47%|████▋     | 1652/3529 [11:29:00<13:47:10, 26.44s/it] 47%|████▋     | 1653/3529 [11:29:23<13:15:18, 25.44s/it] 47%|████▋     | 1654/3529 [11:29:51<13:44:50, 26.40s/it] 47%|████▋     | 1655/3529 [11:30:20<14:01:11, 26.93s/it] 47%|████▋     | 1656/3529 [11:30:46<13:58:26, 26.86s/it] 47%|████▋     | 1657/3529 [11:31:09<13:17:22, 25.56s/it] 47%|████▋     | 1658/3529 [11:31:29<12:28:17, 24.00s/it] 47%|████▋     | 1659/3529 [11:31:51<12:03:20, 23.21s/it] 47%|████▋     | 1660/3529 [11:32:15<12:17:43, 23.68s/it]                                                         {'loss': 3.5255, 'grad_norm': 22.177770614624023, 'learning_rate': 5.7202446389173225e-06, 'epoch': 0.47}
+ 47%|████▋     | 1660/3529 [11:32:15<12:17:43, 23.68s/it] 47%|████▋     | 1661/3529 [11:32:52<14:21:24, 27.67s/it] 47%|████▋     | 1662/3529 [11:33:15<13:33:56, 26.16s/it] 47%|████▋     | 1663/3529 [11:33:38<13:02:28, 25.16s/it] 47%|████▋     | 1664/3529 [11:34:01<12:39:25, 24.43s/it] 47%|████▋     | 1665/3529 [11:34:23<12:20:00, 23.82s/it] 47%|████▋     | 1666/3529 [11:34:46<12:12:44, 23.60s/it] 47%|████▋     | 1667/3529 [11:35:11<12:29:31, 24.15s/it] 47%|████▋     | 1668/3529 [11:35:35<12:18:58, 23.83s/it] 47%|████▋     | 1669/3529 [11:36:03<12:57:31, 25.08s/it] 47%|████▋     | 1670/3529 [11:36:28<13:00:40, 25.20s/it]                                                         {'loss': 3.5088, 'grad_norm': 27.885957717895508, 'learning_rate': 5.674804080063392e-06, 'epoch': 0.47}
+ 47%|████▋     | 1670/3529 [11:36:28<13:00:40, 25.20s/it] 47%|████▋     | 1671/3529 [11:36:48<12:16:26, 23.78s/it] 47%|████▋     | 1672/3529 [11:37:11<12:05:52, 23.45s/it] 47%|████▋     | 1673/3529 [11:37:38<12:41:07, 24.61s/it] 47%|████▋     | 1674/3529 [11:38:04<12:50:37, 24.93s/it] 47%|████▋     | 1675/3529 [11:38:25<12:15:23, 23.80s/it] 47%|████▋     | 1676/3529 [11:38:56<13:18:24, 25.85s/it] 48%|████▊     | 1677/3529 [11:39:19<12:55:39, 25.13s/it] 48%|████▊     | 1678/3529 [11:39:41<12:19:46, 23.98s/it] 48%|████▊     | 1679/3529 [11:40:09<12:57:16, 25.21s/it] 48%|████▊     | 1680/3529 [11:40:29<12:10:21, 23.70s/it]                                                         {'loss': 4.4746, 'grad_norm': 33.34544372558594, 'learning_rate': 5.62930668035493e-06, 'epoch': 0.48}
+ 48%|████▊     | 1680/3529 [11:40:29<12:10:21, 23.70s/it] 48%|████▊     | 1681/3529 [11:40:50<11:45:01, 22.89s/it] 48%|████▊     | 1682/3529 [11:41:09<11:12:28, 21.85s/it] 48%|████▊     | 1683/3529 [11:41:31<11:07:39, 21.70s/it] 48%|████▊     | 1684/3529 [11:41:53<11:14:46, 21.94s/it] 48%|████▊     | 1685/3529 [11:42:16<11:19:13, 22.10s/it] 48%|████▊     | 1686/3529 [11:42:38<11:22:10, 22.21s/it] 48%|████▊     | 1687/3529 [11:43:01<11:24:39, 22.30s/it] 48%|████▊     | 1688/3529 [11:43:20<10:58:53, 21.47s/it] 48%|████▊     | 1689/3529 [11:43:41<10:52:11, 21.27s/it] 48%|████▊     | 1690/3529 [11:44:03<11:02:51, 21.63s/it]                                                         {'loss': 6.4182, 'grad_norm': 24.865848541259766, 'learning_rate': 5.5837562721799644e-06, 'epoch': 0.48}
+ 48%|████▊     | 1690/3529 [11:44:03<11:02:51, 21.63s/it] 48%|████▊     | 1691/3529 [11:44:24<10:51:18, 21.26s/it] 48%|████▊     | 1692/3529 [11:44:48<11:20:47, 22.24s/it] 48%|████▊     | 1693/3529 [11:45:11<11:21:40, 22.28s/it] 48%|████▊     | 1694/3529 [11:45:33<11:22:23, 22.31s/it] 48%|████▊     | 1695/3529 [11:45:55<11:19:54, 22.24s/it] 48%|████▊     | 1696/3529 [11:46:18<11:22:08, 22.33s/it] 48%|████▊     | 1697/3529 [11:46:40<11:24:05, 22.40s/it] 48%|████▊     | 1698/3529 [11:47:03<11:27:23, 22.52s/it] 48%|████▊     | 1699/3529 [11:47:28<11:44:40, 23.10s/it] 48%|████▊     | 1700/3529 [11:47:49<11:32:30, 22.72s/it]                                                         {'loss': 3.499, 'grad_norm': 20.06027603149414, 'learning_rate': 5.538156692391592e-06, 'epoch': 0.48}
+ 48%|████▊     | 1700/3529 [11:47:49<11:32:30, 22.72s/it] 48%|████▊     | 1701/3529 [11:48:12<11:29:49, 22.64s/it] 48%|████▊     | 1702/3529 [11:48:34<11:28:38, 22.62s/it] 48%|████▊     | 1703/3529 [11:48:55<11:06:32, 21.90s/it] 48%|████▊     | 1704/3529 [11:49:21<11:44:38, 23.17s/it] 48%|████▊     | 1705/3529 [11:49:44<11:44:05, 23.16s/it] 48%|████▊     | 1706/3529 [11:50:07<11:42:34, 23.12s/it] 48%|████▊     | 1707/3529 [11:50:27<11:15:18, 22.24s/it] 48%|████▊     | 1708/3529 [11:50:51<11:30:45, 22.76s/it] 48%|████▊     | 1709/3529 [11:51:13<11:18:54, 22.38s/it] 48%|████▊     | 1710/3529 [11:51:37<11:37:20, 23.00s/it]                                                         {'loss': 5.4651, 'grad_norm': 28.240829467773438, 'learning_rate': 5.4925117819847925e-06, 'epoch': 0.48}
+ 48%|████▊     | 1710/3529 [11:51:37<11:37:20, 23.00s/it] 48%|████▊     | 1711/3529 [11:52:05<12:19:44, 24.41s/it] 49%|████▊     | 1712/3529 [11:52:25<11:41:08, 23.15s/it] 49%|████▊     | 1713/3529 [11:52:47<11:32:52, 22.89s/it] 49%|████▊     | 1714/3529 [11:53:07<11:08:11, 22.09s/it] 49%|████▊     | 1715/3529 [11:53:33<11:41:45, 23.21s/it] 49%|████▊     | 1716/3529 [11:53:56<11:37:04, 23.07s/it] 49%|████▊     | 1717/3529 [11:54:20<11:46:52, 23.41s/it] 49%|████▊     | 1718/3529 [11:54:43<11:37:04, 23.09s/it] 49%|████▊     | 1719/3529 [11:55:04<11:18:53, 22.50s/it] 49%|████▊     | 1720/3529 [11:55:25<11:11:42, 22.28s/it]                                                         {'loss': 4.7134, 'grad_norm': 39.07200241088867, 'learning_rate': 5.44682538577288e-06, 'epoch': 0.49}
+ 49%|████▊     | 1720/3529 [11:55:25<11:11:42, 22.28s/it] 49%|████▉     | 1721/3529 [11:55:51<11:38:35, 23.18s/it] 49%|████▉     | 1722/3529 [11:56:15<11:48:56, 23.54s/it] 49%|████▉     | 1723/3529 [11:56:38<11:41:43, 23.31s/it] 49%|████▉     | 1724/3529 [11:57:05<12:11:57, 24.33s/it] 49%|████▉     | 1725/3529 [11:57:28<11:58:47, 23.91s/it] 49%|████▉     | 1726/3529 [11:57:49<11:35:04, 23.13s/it] 49%|████▉     | 1727/3529 [11:58:13<11:44:38, 23.46s/it] 49%|████▉     | 1728/3529 [11:58:38<11:54:40, 23.81s/it] 49%|████▉     | 1729/3529 [11:59:01<11:46:09, 23.54s/it] 49%|████▉     | 1730/3529 [11:59:30<12:40:22, 25.36s/it]                                                         {'loss': 4.4705, 'grad_norm': 31.383825302124023, 'learning_rate': 5.4011013520636466e-06, 'epoch': 0.49}
+ 49%|████▉     | 1730/3529 [11:59:30<12:40:22, 25.36s/it] 49%|████▉     | 1731/3529 [11:59:57<12:55:26, 25.88s/it] 49%|████▉     | 1732/3529 [12:00:19<12:14:07, 24.51s/it] 49%|████▉     | 1733/3529 [12:00:40<11:48:25, 23.67s/it] 49%|████▉     | 1734/3529 [12:01:04<11:48:24, 23.68s/it] 49%|████▉     | 1735/3529 [12:01:28<11:47:58, 23.68s/it] 49%|████▉     | 1736/3529 [12:01:47<11:12:04, 22.49s/it] 49%|████▉     | 1737/3529 [12:02:11<11:19:38, 22.76s/it] 49%|████▉     | 1738/3529 [12:02:37<11:53:21, 23.90s/it] 49%|████▉     | 1739/3529 [12:02:58<11:25:07, 22.97s/it] 49%|████▉     | 1740/3529 [12:03:19<11:04:44, 22.29s/it]                                                         {'loss': 7.2469, 'grad_norm': 40.832984924316406, 'learning_rate': 5.355343532335215e-06, 'epoch': 0.49}
+ 49%|████▉     | 1740/3529 [12:03:19<11:04:44, 22.29s/it] 49%|████▉     | 1741/3529 [12:03:44<11:25:57, 23.02s/it] 49%|████▉     | 1742/3529 [12:04:10<11:55:20, 24.02s/it] 49%|████▉     | 1743/3529 [12:04:35<12:02:35, 24.28s/it] 49%|████▉     | 1744/3529 [12:04:56<11:31:47, 23.25s/it] 49%|████▉     | 1745/3529 [12:05:17<11:12:27, 22.62s/it] 49%|████▉     | 1746/3529 [12:05:36<10:37:25, 21.45s/it] 50%|████▉     | 1747/3529 [12:06:00<11:07:47, 22.48s/it] 50%|████▉     | 1748/3529 [12:06:23<11:08:02, 22.51s/it] 50%|████▉     | 1749/3529 [12:06:46<11:11:07, 22.62s/it] 50%|████▉     | 1750/3529 [12:07:14<11:57:52, 24.21s/it]                                                         {'loss': 5.4482, 'grad_norm': 20.33405303955078, 'learning_rate': 5.309555780911604e-06, 'epoch': 0.5}
+ 50%|████▉     | 1750/3529 [12:07:14<11:57:52, 24.21s/it] 50%|████▉     | 1751/3529 [12:07:36<11:42:01, 23.69s/it] 50%|████▉     | 1752/3529 [12:07:57<11:15:39, 22.81s/it] 50%|████▉     | 1753/3529 [12:08:20<11:16:24, 22.85s/it] 50%|████▉     | 1754/3529 [12:08:47<11:53:42, 24.13s/it] 50%|████▉     | 1755/3529 [12:09:09<11:32:28, 23.42s/it] 50%|████▉     | 1756/3529 [12:09:35<11:51:44, 24.09s/it] 50%|████▉     | 1757/3529 [12:09:58<11:46:42, 23.93s/it] 50%|████▉     | 1758/3529 [12:10:22<11:48:56, 24.02s/it] 50%|████▉     | 1759/3529 [12:10:48<12:01:50, 24.47s/it] 50%|████▉     | 1760/3529 [12:11:08<11:23:23, 23.18s/it]                                                         {'loss': 4.4573, 'grad_norm': 22.8585262298584, 'learning_rate': 5.263741954638072e-06, 'epoch': 0.5}
+ 50%|████▉     | 1760/3529 [12:11:08<11:23:23, 23.18s/it] 50%|████▉     | 1761/3529 [12:11:33<11:38:10, 23.69s/it] 50%|████▉     | 1762/3529 [12:11:55<11:24:37, 23.25s/it] 50%|████▉     | 1763/3529 [12:12:20<11:37:12, 23.69s/it] 50%|████▉     | 1764/3529 [12:12:42<11:24:38, 23.27s/it] 50%|█████     | 1765/3529 [12:13:05<11:19:46, 23.12s/it] 50%|█████     | 1766/3529 [12:13:26<10:59:22, 22.44s/it] 50%|█████     | 1767/3529 [12:13:47<10:46:18, 22.01s/it] 50%|█████     | 1768/3529 [12:14:09<10:47:44, 22.07s/it] 50%|█████     | 1769/3529 [12:14:30<10:40:16, 21.83s/it] 50%|█████     | 1770/3529 [12:14:51<10:34:06, 21.63s/it]                                                         {'loss': 5.5277, 'grad_norm': 42.46244430541992, 'learning_rate': 5.217905912556248e-06, 'epoch': 0.5}
+ 50%|█████     | 1770/3529 [12:14:51<10:34:06, 21.63s/it] 50%|█████     | 1771/3529 [12:15:16<11:01:05, 22.56s/it] 50%|█████     | 1772/3529 [12:15:41<11:22:40, 23.31s/it] 50%|█████     | 1773/3529 [12:16:00<10:41:08, 21.91s/it] 50%|█████     | 1774/3529 [12:16:21<10:35:19, 21.72s/it] 50%|█████     | 1775/3529 [12:16:44<10:42:39, 21.98s/it] 50%|█████     | 1776/3529 [12:17:07<10:56:11, 22.46s/it] 50%|█████     | 1777/3529 [12:17:28<10:43:01, 22.02s/it] 50%|█████     | 1778/3529 [12:17:51<10:47:02, 22.17s/it] 50%|█████     | 1779/3529 [12:18:13<10:49:16, 22.26s/it] 50%|█████     | 1780/3529 [12:18:34<10:37:11, 21.86s/it]                                                         {'loss': 5.4764, 'grad_norm': 21.30562973022461, 'learning_rate': 5.172051515579065e-06, 'epoch': 0.5}
+ 50%|█████     | 1780/3529 [12:18:34<10:37:11, 21.86s/it] 50%|█████     | 1781/3529 [12:18:55<10:29:30, 21.61s/it] 50%|█████     | 1782/3529 [12:19:14<10:03:37, 20.73s/it] 51%|█████     | 1783/3529 [12:19:34<9:55:03, 20.45s/it]  51%|█████     | 1784/3529 [12:19:55<10:02:17, 20.71s/it] 51%|█████     | 1785/3529 [12:20:17<10:17:32, 21.25s/it] 51%|█████     | 1786/3529 [12:20:40<10:29:41, 21.68s/it] 51%|█████     | 1787/3529 [12:21:03<10:36:38, 21.93s/it] 51%|█████     | 1788/3529 [12:21:37<12:20:21, 25.52s/it] 51%|█████     | 1789/3529 [12:21:59<11:53:02, 24.59s/it] 51%|█████     | 1790/3529 [12:22:23<11:49:07, 24.47s/it]                                                         {'loss': 6.4232, 'grad_norm': 18.9359130859375, 'learning_rate': 5.126182626165547e-06, 'epoch': 0.51}
+ 51%|█████     | 1790/3529 [12:22:23<11:49:07, 24.47s/it] 51%|█████     | 1791/3529 [12:22:46<11:31:14, 23.86s/it] 51%|█████     | 1792/3529 [12:23:07<11:06:23, 23.02s/it] 51%|█████     | 1793/3529 [12:23:30<11:06:37, 23.04s/it] 51%|█████     | 1794/3529 [12:23:53<11:03:33, 22.95s/it] 51%|█████     | 1795/3529 [12:24:15<10:57:15, 22.74s/it] 51%|█████     | 1796/3529 [12:24:34<10:25:02, 21.64s/it] 51%|█████     | 1797/3529 [12:24:55<10:18:09, 21.41s/it] 51%|█████     | 1798/3529 [12:25:16<10:14:46, 21.31s/it] 51%|█████     | 1799/3529 [12:25:37<10:11:08, 21.20s/it] 51%|█████     | 1800/3529 [12:26:03<10:57:42, 22.82s/it]                                                         {'loss': 6.6042, 'grad_norm': 33.8026123046875, 'learning_rate': 5.080303107995461e-06, 'epoch': 0.51}
+ 51%|█████     | 1800/3529 [12:26:03<10:57:42, 22.82s/it] 51%|█████     | 1801/3529 [12:26:24<10:36:14, 22.09s/it] 51%|█████     | 1802/3529 [12:26:50<11:14:16, 23.43s/it] 51%|█████     | 1803/3529 [12:27:13<11:09:17, 23.27s/it] 51%|█████     | 1804/3529 [12:27:35<10:59:51, 22.95s/it] 51%|█████     | 1805/3529 [12:27:58<10:53:23, 22.74s/it] 51%|█████     | 1806/3529 [12:28:20<10:52:54, 22.74s/it] 51%|█████     | 1807/3529 [12:28:39<10:19:46, 21.59s/it] 51%|█████     | 1808/3529 [12:29:01<10:16:29, 21.49s/it] 51%|█████▏    | 1809/3529 [12:29:22<10:14:24, 21.43s/it] 51%|█████▏    | 1810/3529 [12:29:43<10:10:38, 21.31s/it]                                                         {'loss': 5.5848, 'grad_norm': 40.52323913574219, 'learning_rate': 5.034416825643868e-06, 'epoch': 0.51}
+ 51%|█████▏    | 1810/3529 [12:29:43<10:10:38, 21.31s/it] 51%|█████▏    | 1811/3529 [12:30:03<9:58:39, 20.91s/it]  51%|█████▏    | 1812/3529 [12:30:21<9:35:59, 20.13s/it] 51%|█████▏    | 1813/3529 [12:30:42<9:45:59, 20.49s/it] 51%|█████▏    | 1814/3529 [12:31:05<10:03:59, 21.13s/it] 51%|█████▏    | 1815/3529 [12:31:27<10:12:56, 21.46s/it] 51%|█████▏    | 1816/3529 [12:31:48<10:07:36, 21.28s/it] 51%|█████▏    | 1817/3529 [12:32:10<10:11:38, 21.44s/it] 52%|█████▏    | 1818/3529 [12:32:32<10:20:19, 21.75s/it] 52%|█████▏    | 1819/3529 [12:32:55<10:28:49, 22.06s/it] 52%|█████▏    | 1820/3529 [12:33:20<10:54:26, 22.98s/it]                                                         {'loss': 5.2504, 'grad_norm': 27.342744827270508, 'learning_rate': 4.988527644255591e-06, 'epoch': 0.52}
+ 52%|█████▏    | 1820/3529 [12:33:20<10:54:26, 22.98s/it] 52%|█████▏    | 1821/3529 [12:33:45<11:06:55, 23.43s/it] 52%|█████▏    | 1822/3529 [12:34:09<11:15:31, 23.74s/it] 52%|█████▏    | 1823/3529 [12:34:31<10:53:29, 22.98s/it] 52%|█████▏    | 1824/3529 [12:34:52<10:36:12, 22.39s/it] 52%|█████▏    | 1825/3529 [12:35:17<11:00:01, 23.24s/it] 52%|█████▏    | 1826/3529 [12:35:39<10:50:41, 22.93s/it] 52%|█████▏    | 1827/3529 [12:36:02<10:48:41, 22.87s/it] 52%|█████▏    | 1828/3529 [12:36:24<10:47:09, 22.83s/it] 52%|█████▏    | 1829/3529 [12:36:47<10:42:29, 22.68s/it] 52%|█████▏    | 1830/3529 [12:37:10<10:43:00, 22.71s/it]                                                         {'loss': 4.5668, 'grad_norm': 19.118297576904297, 'learning_rate': 4.942639429219661e-06, 'epoch': 0.52}
+ 52%|█████▏    | 1830/3529 [12:37:10<10:43:00, 22.71s/it] 52%|█████▏    | 1831/3529 [12:37:31<10:28:20, 22.20s/it] 52%|█████▏    | 1832/3529 [12:37:54<10:39:16, 22.60s/it] 52%|█████▏    | 1833/3529 [12:38:18<10:50:46, 23.02s/it] 52%|��████▏    | 1834/3529 [12:38:41<10:48:06, 22.94s/it] 52%|█████▏    | 1835/3529 [12:39:08<11:23:29, 24.21s/it] 52%|█████▏    | 1836/3529 [12:39:31<11:16:11, 23.96s/it] 52%|█████▏    | 1837/3529 [12:39:53<10:53:13, 23.16s/it] 52%|█████▏    | 1838/3529 [12:40:16<10:51:55, 23.13s/it] 52%|█████▏    | 1839/3529 [12:40:37<10:35:35, 22.57s/it] 52%|█████▏    | 1840/3529 [12:40:57<10:12:51, 21.77s/it]                                                         {'loss': 6.0831, 'grad_norm': 41.146236419677734, 'learning_rate': 4.896756045843698e-06, 'epoch': 0.52}
+ 52%|█████▏    | 1840/3529 [12:40:57<10:12:51, 21.77s/it] 52%|█████▏    | 1841/3529 [12:41:19<10:17:52, 21.96s/it] 52%|█████▏    | 1842/3529 [12:41:43<10:29:22, 22.38s/it] 52%|█████▏    | 1843/3529 [12:42:06<10:33:34, 22.55s/it] 52%|█████▏    | 1844/3529 [12:42:34<11:23:21, 24.33s/it] 52%|█████▏    | 1845/3529 [12:42:55<10:52:16, 23.24s/it] 52%|█████▏    | 1846/3529 [12:43:20<11:04:56, 23.71s/it] 52%|█████▏    | 1847/3529 [12:43:42<10:54:51, 23.36s/it] 52%|█████▏    | 1848/3529 [12:44:06<10:54:14, 23.35s/it] 52%|█████▏    | 1849/3529 [12:44:26<10:31:45, 22.56s/it] 52%|█████▏    | 1850/3529 [12:44:49<10:30:24, 22.53s/it]                                                         {'loss': 5.5025, 'grad_norm': 19.685937881469727, 'learning_rate': 4.85088135902834e-06, 'epoch': 0.52}
+ 52%|█████▏    | 1850/3529 [12:44:49<10:30:24, 22.53s/it] 52%|█████▏    | 1851/3529 [12:45:11<10:32:09, 22.60s/it] 52%|█████▏    | 1852/3529 [12:45:32<10:12:47, 21.92s/it] 53%|█████▎    | 1853/3529 [12:45:54<10:16:02, 22.05s/it] 53%|█████▎    | 1854/3529 [12:46:17<10:22:40, 22.30s/it] 53%|█████▎    | 1855/3529 [12:46:40<10:26:04, 22.44s/it] 53%|█████▎    | 1856/3529 [12:47:02<10:27:35, 22.51s/it] 53%|█████▎    | 1857/3529 [12:47:21<9:54:22, 21.33s/it]  53%|█████▎    | 1858/3529 [12:47:42<9:47:54, 21.11s/it] 53%|█████▎    | 1859/3529 [12:48:02<9:42:56, 20.94s/it] 53%|█████▎    | 1860/3529 [12:48:25<9:55:45, 21.42s/it]                                                        {'loss': 4.4157, 'grad_norm': 22.97096061706543, 'learning_rate': 4.805019232941689e-06, 'epoch': 0.53}
+ 53%|█████▎    | 1860/3529 [12:48:25<9:55:45, 21.42s/it] 53%|█████▎    | 1861/3529 [12:48:50<10:25:47, 22.51s/it] 53%|█████▎    | 1862/3529 [12:49:15<10:46:50, 23.28s/it] 53%|█████▎    | 1863/3529 [12:49:39<10:52:24, 23.50s/it] 53%|█████▎    | 1864/3529 [12:50:13<12:17:41, 26.58s/it] 53%|█████▎    | 1865/3529 [12:50:46<13:12:09, 28.56s/it] 53%|█████▎    | 1866/3529 [12:51:10<12:38:48, 27.38s/it] 53%|█████▎    | 1867/3529 [12:51:35<12:16:41, 26.60s/it] 53%|█████▎    | 1868/3529 [12:51:56<11:25:33, 24.76s/it] 53%|█████▎    | 1869/3529 [12:52:23<11:43:19, 25.42s/it] 53%|█████▎    | 1870/3529 [12:52:46<11:22:42, 24.69s/it]                                                         {'loss': 4.3861, 'grad_norm': 27.627784729003906, 'learning_rate': 4.7591735306938144e-06, 'epoch': 0.53}
+ 53%|█████▎    | 1870/3529 [12:52:46<11:22:42, 24.69s/it] 53%|█████▎    | 1871/3529 [12:53:08<11:06:57, 24.14s/it] 53%|█████▎    | 1872/3529 [12:53:31<10:51:16, 23.58s/it] 53%|█████▎    | 1873/3529 [12:53:54<10:47:30, 23.46s/it] 53%|█████▎    | 1874/3529 [12:54:18<10:48:01, 23.49s/it] 53%|█████▎    | 1875/3529 [12:54:40<10:41:58, 23.29s/it] 53%|█████▎    | 1876/3529 [12:55:05<10:52:44, 23.69s/it] 53%|█████▎    | 1877/3529 [12:55:26<10:31:02, 22.92s/it] 53%|█████▎    | 1878/3529 [12:55:46<10:04:03, 21.95s/it] 53%|█████▎    | 1879/3529 [12:56:07<9:57:23, 21.72s/it]  53%|█████▎    | 1880/3529 [12:56:31<10:18:18, 22.50s/it]                                                         {'loss': 7.2963, 'grad_norm': 25.308032989501953, 'learning_rate': 4.713348114011357e-06, 'epoch': 0.53}
+ 53%|█████▎    | 1880/3529 [12:56:31<10:18:18, 22.50s/it] 53%|█████▎    | 1881/3529 [12:56:53<10:08:19, 22.15s/it] 53%|█████▎    | 1882/3529 [12:57:15<10:10:32, 22.24s/it] 53%|█████▎    | 1883/3529 [12:57:39<10:21:29, 22.65s/it] 53%|█████▎    | 1884/3529 [12:58:06<11:03:32, 24.20s/it] 53%|█████▎    | 1885/3529 [12:58:29<10:45:33, 23.56s/it] 53%|█████▎    | 1886/3529 [12:58:49<10:23:40, 22.78s/it] 53%|█████▎    | 1887/3529 [12:59:11<10:09:50, 22.28s/it] 53%|█████▎    | 1888/3529 [12:59:34<10:18:20, 22.61s/it] 54%|█████▎    | 1889/3529 [12:59:56<10:14:14, 22.47s/it] 54%|█████▎    | 1890/3529 [13:00:19<10:13:42, 22.47s/it]                                                         {'loss': 4.2907, 'grad_norm': 19.11351203918457, 'learning_rate': 4.667546842912239e-06, 'epoch': 0.54}
+ 54%|█████▎    | 1890/3529 [13:00:19<10:13:42, 22.47s/it] 54%|█████▎    | 1891/3529 [13:00:41<10:15:30, 22.55s/it] 54%|█████▎    | 1892/3529 [13:01:14<11:36:14, 25.52s/it] 54%|█████▎    | 1893/3529 [13:01:45<12:20:30, 27.16s/it] 54%|█████▎    | 1894/3529 [13:02:09<11:52:26, 26.14s/it] 54%|█████▎    | 1895/3529 [13:02:32<11:32:58, 25.45s/it] 54%|█████▎    | 1896/3529 [13:02:58<11:38:05, 25.65s/it] 54%|█████▍    | 1897/3529 [13:03:25<11:41:07, 25.78s/it] 54%|█████▍    | 1898/3529 [13:03:47<11:14:32, 24.81s/it] 54%|█████▍    | 1899/3529 [13:04:13<11:24:20, 25.19s/it] 54%|█████▍    | 1900/3529 [13:04:38<11:21:35, 25.10s/it]                                                         {'loss': 4.5385, 'grad_norm': 28.81739044189453, 'learning_rate': 4.6217735753805235e-06, 'epoch': 0.54}
+ 54%|█████▍    | 1900/3529 [13:04:38<11:21:35, 25.10s/it] 54%|█████▍    | 1901/3529 [13:04:59<10:43:37, 23.72s/it] 54%|█████▍    | 1902/3529 [13:05:23<10:44:56, 23.78s/it] 54%|█████▍    | 1903/3529 [13:05:45<10:35:19, 23.44s/it] 54%|█████▍    | 1904/3529 [13:06:06<10:16:04, 22.75s/it] 54%|█████▍    | 1905/3529 [13:06:26<9:50:15, 21.81s/it]  54%|█████▍    | 1906/3529 [13:06:47<9:43:25, 21.57s/it] 54%|█████▍    | 1907/3529 [13:07:08<9:39:13, 21.43s/it] 54%|█████▍    | 1908/3529 [13:07:28<9:30:25, 21.11s/it] 54%|█████▍    | 1909/3529 [13:07:53<9:54:17, 22.01s/it] 54%|█████▍    | 1910/3529 [13:08:15<9:57:12, 22.13s/it]                                                        {'loss': 7.2043, 'grad_norm': 20.510547637939453, 'learning_rate': 4.576032167041452e-06, 'epoch': 0.54}
+ 54%|█████▍    | 1910/3529 [13:08:15<9:57:12, 22.13s/it] 54%|█████▍    | 1911/3529 [13:08:39<10:11:28, 22.68s/it] 54%|█████▍    | 1912/3529 [13:08:58<9:42:39, 21.62s/it]  54%|█████▍    | 1913/3529 [13:09:20<9:43:23, 21.66s/it] 54%|█████▍    | 1914/3529 [13:09:45<10:08:33, 22.61s/it] 54%|█████▍    | 1915/3529 [13:10:08<10:18:01, 22.98s/it] 54%|█████▍    | 1916/3529 [13:10:32<10:22:49, 23.17s/it] 54%|█████▍    | 1917/3529 [13:10:55<10:20:43, 23.10s/it] 54%|█████▍    | 1918/3529 [13:11:17<10:13:49, 22.86s/it] 54%|█████▍    | 1919/3529 [13:11:41<10:19:14, 23.08s/it] 54%|█████▍    | 1920/3529 [13:12:05<10:28:49, 23.45s/it]                                                         {'loss': 4.3494, 'grad_norm': 26.19765281677246, 'learning_rate': 4.530326470836659e-06, 'epoch': 0.54}
+ 54%|█████▍    | 1920/3529 [13:12:05<10:28:49, 23.45s/it] 54%|█████▍    | 1921/3529 [13:12:25<10:01:58, 22.46s/it] 54%|█████▍    | 1922/3529 [13:12:46<9:50:39, 22.05s/it]  54%|█████▍    | 1923/3529 [13:13:07<9:40:53, 21.70s/it] 55%|█████▍    | 1924/3529 [13:13:28<9:31:22, 21.36s/it] 55%|█████▍    | 1925/3529 [13:13:49<9:25:59, 21.17s/it] 55%|█████▍    | 1926/3529 [13:14:09<9:16:34, 20.83s/it] 55%|█████▍    | 1927/3529 [13:14:29<9:11:34, 20.66s/it] 55%|█████▍    | 1928/3529 [13:14:53<9:41:34, 21.80s/it] 55%|█████▍    | 1929/3529 [13:15:16<9:47:22, 22.03s/it] 55%|█████▍    | 1930/3529 [13:15:37<9:37:09, 21.66s/it]                                                        {'loss': 5.3226, 'grad_norm': 25.779802322387695, 'learning_rate': 4.484660336699638e-06, 'epoch': 0.55}
+ 55%|█████▍    | 1930/3529 [13:15:37<9:37:09, 21.66s/it] 55%|█████▍    | 1931/3529 [13:15:59<9:37:37, 21.69s/it] 55%|█████▍    | 1932/3529 [13:16:20<9:39:01, 21.75s/it] 55%|█████▍    | 1933/3529 [13:16:44<9:57:05, 22.45s/it] 55%|█████▍    | 1934/3529 [13:17:06<9:47:29, 22.10s/it] 55%|█████▍    | 1935/3529 [13:17:25<9:27:17, 21.35s/it] 55%|█████▍    | 1936/3529 [13:17:47<9:29:01, 21.43s/it] 55%|█████▍    | 1937/3529 [13:18:12<9:55:50, 22.46s/it] 55%|█████▍    | 1938/3529 [13:18:34<9:55:07, 22.44s/it] 55%|█████▍    | 1939/3529 [13:18:54<9:36:41, 21.76s/it] 55%|█████▍    | 1940/3529 [13:19:20<10:03:24, 22.78s/it]                                                         {'loss': 6.5069, 'grad_norm': 26.97022247314453, 'learning_rate': 4.439037611231448e-06, 'epoch': 0.55}
+ 55%|█████▍    | 1940/3529 [13:19:20<10:03:24, 22.78s/it] 55%|█████▌    | 1941/3529 [13:19:40<9:42:03, 21.99s/it]  55%|█████▌    | 1942/3529 [13:20:02<9:45:58, 22.15s/it] 55%|█████▌    | 1943/3529 [13:20:25<9:50:03, 22.32s/it] 55%|█████▌    | 1944/3529 [13:20:48<9:52:28, 22.43s/it] 55%|█████▌    | 1945/3529 [13:21:09<9:43:50, 22.12s/it] 55%|█████▌    | 1946/3529 [13:21:34<10:03:34, 22.88s/it] 55%|█████▌    | 1947/3529 [13:21:56<10:02:01, 22.83s/it] 55%|█████▌    | 1948/3529 [13:22:16<9:39:28, 21.99s/it]  55%|█████▌    | 1949/3529 [13:22:37<9:23:54, 21.41s/it] 55%|█████▌    | 1950/3529 [13:22:59<9:32:00, 21.74s/it]                                                        {'loss': 3.545, 'grad_norm': 26.32407569885254, 'learning_rate': 4.393462137376696e-06, 'epoch': 0.55}
+ 55%|█████▌    | 1950/3529 [13:22:59<9:32:00, 21.74s/it] 55%|█████▌    | 1951/3529 [13:23:19<9:16:32, 21.16s/it] 55%|█████▌    | 1952/3529 [13:23:41<9:27:34, 21.59s/it] 55%|█████▌    | 1953/3529 [13:24:05<9:42:17, 22.17s/it] 55%|█████▌    | 1954/3529 [13:24:26<9:31:54, 21.79s/it] 55%|█████▌    | 1955/3529 [13:24:50<9:53:34, 22.63s/it] 55%|█████▌    | 1956/3529 [13:25:13<9:54:38, 22.68s/it] 55%|█████▌    | 1957/3529 [13:25:36<9:51:59, 22.60s/it] 55%|█████▌    | 1958/3529 [13:25:59<9:57:44, 22.83s/it] 56%|█████▌    | 1959/3529 [13:26:24<10:14:23, 23.48s/it] 56%|█████▌    | 1960/3529 [13:26:46<10:00:25, 22.96s/it]                                                         {'loss': 4.4292, 'grad_norm': 30.962535858154297, 'learning_rate': 4.347937754099841e-06, 'epoch': 0.56}
+ 56%|█████▌    | 1960/3529 [13:26:46<10:00:25, 22.96s/it] 56%|█████▌    | 1961/3529 [13:27:09<10:02:13, 23.04s/it] 56%|█████▌    | 1962/3529 [13:27:31<9:51:13, 22.64s/it]  56%|█████▌    | 1963/3529 [13:27:53<9:50:58, 22.64s/it] 56%|█████▌    | 1964/3529 [13:28:16<9:49:39, 22.61s/it] 56%|█████▌    | 1965/3529 [13:28:39<9:53:08, 22.75s/it] 56%|█████▌    | 1966/3529 [13:29:02<9:58:08, 22.96s/it] 56%|█████▌    | 1967/3529 [13:29:26<10:05:09, 23.25s/it] 56%|█████▌    | 1968/3529 [13:29:50<10:05:01, 23.26s/it] 56%|█████▌    | 1969/3529 [13:30:11<9:47:35, 22.60s/it]  56%|█████▌    | 1970/3529 [13:30:32<9:36:17, 22.18s/it]                                                        {'loss': 4.3079, 'grad_norm': 38.1851921081543, 'learning_rate': 4.302468296061823e-06, 'epoch': 0.56}
+ 56%|█████▌    | 1970/3529 [13:30:32<9:36:17, 22.18s/it] 56%|█████▌    | 1971/3529 [13:30:56<9:54:34, 22.90s/it] 56%|█████▌    | 1972/3529 [13:31:19<9:52:26, 22.83s/it] 56%|█████▌    | 1973/3529 [13:31:42<9:56:22, 23.00s/it] 56%|█████▌    | 1974/3529 [13:32:07<10:07:04, 23.42s/it] 56%|█████▌    | 1975/3529 [13:32:30<10:01:37, 23.23s/it] 56%|█████▌    | 1976/3529 [13:32:51<9:45:01, 22.60s/it]  56%|█████▌    | 1977/3529 [13:33:12<9:33:37, 22.18s/it] 56%|█████▌    | 1978/3529 [13:33:33<9:24:49, 21.85s/it] 56%|█████▌    | 1979/3529 [13:33:56<9:30:55, 22.10s/it] 56%|█████▌    | 1980/3529 [13:34:18<9:33:24, 22.21s/it]                                                        {'loss': 4.5294, 'grad_norm': 21.038278579711914, 'learning_rate': 4.257057593297055e-06, 'epoch': 0.56}
+ 56%|█████▌    | 1980/3529 [13:34:18<9:33:24, 22.21s/it] 56%|█████▌    | 1981/3529 [13:34:39<9:22:48, 21.81s/it] 56%|█████▌    | 1982/3529 [13:34:59<9:07:41, 21.24s/it] 56%|█████▌    | 1983/3529 [13:35:20<9:07:57, 21.27s/it] 56%|█████▌    | 1984/3529 [13:35:45<9:35:20, 22.34s/it] 56%|█████▌    | 1985/3529 [13:36:10<9:55:09, 23.13s/it] 56%|█████▋    | 1986/3529 [13:36:33<9:49:15, 22.91s/it] 56%|█████▋    | 1987/3529 [13:36:54<9:36:15, 22.42s/it] 56%|█████▋    | 1988/3529 [13:37:13<9:12:48, 21.52s/it] 56%|█████▋    | 1989/3529 [13:37:34<9:08:42, 21.38s/it] 56%|█████▋    | 1990/3529 [13:37:55<8:59:56, 21.05s/it]                                                        {'loss': 7.2449, 'grad_norm': 20.618942260742188, 'learning_rate': 4.211709470890815e-06, 'epoch': 0.56}
+ 56%|█████▋    | 1990/3529 [13:37:55<8:59:56, 21.05s/it] 56%|█████▋    | 1991/3529 [13:38:15<8:53:15, 20.80s/it] 56%|█████▋    | 1992/3529 [13:38:37<9:03:32, 21.22s/it] 56%|█████▋    | 1993/3529 [13:39:00<9:16:32, 21.74s/it] 57%|█████▋    | 1994/3529 [13:39:25<9:39:04, 22.63s/it] 57%|█████▋    | 1995/3529 [13:39:48<9:45:19, 22.89s/it] 57%|█████▋    | 1996/3529 [13:40:09<9:30:15, 22.32s/it] 57%|█████▋    | 1997/3529 [13:40:30<9:17:05, 21.82s/it] 57%|█████▋    | 1998/3529 [13:40:50<9:06:52, 21.43s/it] 57%|█████▋    | 1999/3529 [13:41:12<9:11:37, 21.63s/it] 57%|█████▋    | 2000/3529 [13:41:34<9:13:50, 21.73s/it]                                                        {'loss': 4.3681, 'grad_norm': 21.230995178222656, 'learning_rate': 4.166427748657034e-06, 'epoch': 0.57}
+ 57%|█████▋    | 2000/3529 [13:41:34<9:13:50, 21.73s/it]/usr/local/lib/python3.12/dist-packages/torch/distributed/distributed_c10d.py:4814: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
+  warnings.warn(  # warn only once
+/usr/local/lib/python3.12/dist-packages/torch/utils/checkpoint.py:85: UserWarning: None of the inputs have requires_grad=True. Gradients will be None
+  warnings.warn(
+/workspace/src/qwen_vl/model/geometry_encoders/vggt_encoder.py:68: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with torch.cuda.amp.autocast(dtype=dtype):
+ 57%|█████▋    | 2001/3529 [13:42:45<15:28:09, 36.45s/it] 57%|█████▋    | 2002/3529 [13:43:04<13:11:39, 31.11s/it] 57%|█████▋    | 2003/3529 [13:43:26<11:59:21, 28.28s/it] 57%|█████▋    | 2004/3529 [13:43:52<11:46:28, 27.80s/it] 57%|█████▋    | 2005/3529 [13:44:16<11:14:38, 26.56s/it] 57%|█████▋    | 2006/3529 [13:44:41<11:00:48, 26.03s/it] 57%|█████▋    | 2007/3529 [13:45:08<11:07:29, 26.31s/it] 57%|█████▋    | 2008/3529 [13:45:29<10:28:22, 24.79s/it] 57%|█████▋    | 2009/3529 [13:45:52<10:17:29, 24.37s/it] 57%|█████▋    | 2010/3529 [13:46:15<10:03:39, 23.84s/it]                                                         {'loss': 5.3925, 'grad_norm': 20.577428817749023, 'learning_rate': 4.121216240816559e-06, 'epoch': 0.57}
+ 57%|█████▋    | 2010/3529 [13:46:15<10:03:39, 23.84s/it] 57%|█████▋    | 2011/3529 [13:46:40<10:12:03, 24.19s/it] 57%|█████▋    | 2012/3529 [13:47:01<9:49:53, 23.33s/it]  57%|█████▋    | 2013/3529 [13:47:21<9:20:56, 22.20s/it] 57%|█████▋    | 2014/3529 [13:47:45<9:36:20, 22.83s/it] 57%|█████▋    | 2015/3529 [13:48:10<9:54:31, 23.56s/it] 57%|█████▋    | 2016/3529 [13:48:33<9:49:02, 23.36s/it] 57%|█████▋    | 2017/3529 [13:48:56<9:45:54, 23.25s/it] 57%|█████▋    | 2018/3529 [13:49:24<10:16:07, 24.47s/it] 57%|█████▋    | 2019/3529 [13:49:49<10:24:16, 24.81s/it] 57%|█████▋    | 2020/3529 [13:50:07<9:34:56, 22.86s/it]                                                         {'loss': 5.0495, 'grad_norm': 21.1496524810791, 'learning_rate': 4.076078755675852e-06, 'epoch': 0.57}
+ 57%|█████▋    | 2020/3529 [13:50:07<9:34:56, 22.86s/it] 57%|█████▋    | 2021/3529 [13:50:28<9:19:31, 22.26s/it] 57%|█████▋    | 2022/3529 [13:50:52<9:31:00, 22.73s/it] 57%|█████▋    | 2023/3529 [13:51:15<9:27:36, 22.61s/it] 57%|█████▋    | 2024/3529 [13:51:35<9:11:37, 21.99s/it] 57%|█████▋    | 2025/3529 [13:51:57<9:12:38, 22.05s/it] 57%|█████▋    | 2026/3529 [13:52:22<9:34:20, 22.93s/it] 57%|█████▋    | 2027/3529 [13:52:47<9:49:09, 23.54s/it] 57%|█████▋    | 2028/3529 [13:53:06<9:15:17, 22.20s/it] 57%|█████▋    | 2029/3529 [13:53:28<9:15:03, 22.20s/it] 58%|█████▊    | 2030/3529 [13:53:56<9:52:36, 23.72s/it]                                                        {'loss': 5.5832, 'grad_norm': 26.215744018554688, 'learning_rate': 4.0310190953062155e-06, 'epoch': 0.58}
+ 58%|█████▊    | 2030/3529 [13:53:56<9:52:36, 23.72s/it] 58%|█████▊    | 2031/3529 [13:54:21<10:04:40, 24.22s/it] 58%|█████▊    | 2032/3529 [13:54:44<9:50:51, 23.68s/it]  58%|█████▊    | 2033/3529 [13:55:07<9:49:50, 23.66s/it] 58%|█████▊    | 2034/3529 [13:55:31<9:49:02, 23.64s/it] 58%|█████▊    | 2035/3529 [13:55:52<9:27:23, 22.79s/it] 58%|█████▊    | 2036/3529 [13:56:13<9:17:25, 22.40s/it] 58%|█████▊    | 2037/3529 [13:56:36<9:21:10, 22.57s/it] 58%|█████▊    | 2038/3529 [13:57:01<9:39:08, 23.31s/it] 58%|█████▊    | 2039/3529 [13:57:25<9:42:33, 23.46s/it] 58%|█████▊    | 2040/3529 [13:57:47<9:33:20, 23.10s/it]                                                        {'loss': 5.1639, 'grad_norm': 33.668174743652344, 'learning_rate': 3.986041055223526e-06, 'epoch': 0.58}
+ 58%|█████▊    | 2040/3529 [13:57:47<9:33:20, 23.10s/it] 58%|█████▊    | 2041/3529 [13:58:10<9:30:36, 23.01s/it] 58%|█████▊    | 2042/3529 [13:58:32<9:27:20, 22.89s/it] 58%|█████▊    | 2043/3529 [13:58:52<9:04:38, 21.99s/it] 58%|█████▊    | 2044/3529 [13:59:15<9:07:53, 22.14s/it] 58%|█████▊    | 2045/3529 [13:59:39<9:24:08, 22.81s/it] 58%|█████▊    | 2046/3529 [14:00:05<9:47:46, 23.78s/it] 58%|█████▊    | 2047/3529 [14:00:31<10:01:16, 24.34s/it] 58%|█████▊    | 2048/3529 [14:00:54<9:54:43, 24.09s/it]  58%|█████▊    | 2049/3529 [14:01:21<10:12:35, 24.84s/it] 58%|█████▊    | 2050/3529 [14:01:47<10:21:15, 25.20s/it]                                                         {'loss': 3.3797, 'grad_norm': 28.786453247070312, 'learning_rate': 3.9411484240685315e-06, 'epoch': 0.58}
+ 58%|█████▊    | 2050/3529 [14:01:47<10:21:15, 25.20s/it] 58%|█████▊    | 2051/3529 [14:02:10<10:04:58, 24.56s/it] 58%|█████▊    | 2052/3529 [14:02:32<9:45:11, 23.77s/it]  58%|█████▊    | 2053/3529 [14:02:55<9:38:15, 23.51s/it] 58%|█████▊    | 2054/3529 [14:03:16<9:19:27, 22.76s/it] 58%|█████▊    | 2055/3529 [14:03:40<9:31:03, 23.25s/it] 58%|█████▊    | 2056/3529 [14:04:04<9:31:03, 23.26s/it] 58%|█████▊    | 2057/3529 [14:04:26<9:25:54, 23.07s/it] 58%|█████▊    | 2058/3529 [14:04:51<9:38:59, 23.62s/it] 58%|█████▊    | 2059/3529 [14:05:17<9:57:54, 24.40s/it] 58%|█████▊    | 2060/3529 [14:05:39<9:38:37, 23.63s/it]                                                        {'loss': 6.3189, 'grad_norm': 24.81963348388672, 'learning_rate': 3.8963449832877164e-06, 'epoch': 0.58}
+ 58%|█████▊    | 2060/3529 [14:05:39<9:38:37, 23.63s/it] 58%|█████▊    | 2061/3529 [14:06:03<9:42:12, 23.80s/it] 58%|█████▊    | 2062/3529 [14:06:23<9:11:31, 22.56s/it] 58%|█████▊    | 2063/3529 [14:06:45<9:05:54, 22.34s/it] 58%|█████▊    | 2064/3529 [14:07:08<9:12:50, 22.64s/it] 59%|█████▊    | 2065/3529 [14:07:32<9:23:07, 23.08s/it] 59%|█████▊    | 2066/3529 [14:07:56<9:27:37, 23.28s/it] 59%|█████▊    | 2067/3529 [14:08:19<9:24:29, 23.17s/it] 59%|█████▊    | 2068/3529 [14:08:38<8:54:37, 21.96s/it] 59%|█████▊    | 2069/3529 [14:09:00<8:55:58, 22.03s/it] 59%|█████▊    | 2070/3529 [14:09:24<9:07:21, 22.51s/it]                                                        {'loss': 6.463, 'grad_norm': 25.143753051757812, 'learning_rate': 3.851634506814782e-06, 'epoch': 0.59}
+ 59%|█████▊    | 2070/3529 [14:09:24<9:07:21, 22.51s/it] 59%|█████▊    | 2071/3529 [14:09:45<8:59:11, 22.19s/it] 59%|█████▊    | 2072/3529 [14:10:08<9:03:10, 22.37s/it] 59%|█████▊    | 2073/3529 [14:10:28<8:47:35, 21.74s/it] 59%|█████▉    | 2074/3529 [14:10:52<8:58:23, 22.20s/it] 59%|█████▉    | 2075/3529 [14:11:13<8:48:56, 21.83s/it] 59%|█████▉    | 2076/3529 [14:11:34<8:44:43, 21.67s/it] 59%|█████▉    | 2077/3529 [14:11:55<8:40:32, 21.51s/it] 59%|█████▉    | 2078/3529 [14:12:18<8:49:24, 21.89s/it] 59%|█████▉    | 2079/3529 [14:12:39<8:44:59, 21.72s/it] 59%|█████▉    | 2080/3529 [14:13:02<8:48:22, 21.88s/it]                                                        {'loss': 7.5255, 'grad_norm': 39.29959487915039, 'learning_rate': 3.8070207607527587e-06, 'epoch': 0.59}
+ 59%|█████▉    | 2080/3529 [14:13:02<8:48:22, 21.88s/it] 59%|█████▉    | 2081/3529 [14:13:25<8:59:40, 22.36s/it] 59%|█████▉    | 2082/3529 [14:13:46<8:51:25, 22.04s/it] 59%|█████▉    | 2083/3529 [14:14:11<9:12:10, 22.91s/it] 59%|█████▉    | 2084/3529 [14:14:34<9:09:34, 22.82s/it] 59%|█████▉    | 2085/3529 [14:14:54<8:51:29, 22.08s/it] 59%|█████▉    | 2086/3529 [14:15:17<8:55:34, 22.27s/it] 59%|█████▉    | 2087/3529 [14:15:39<8:55:10, 22.27s/it] 59%|█████▉    | 2088/3529 [14:16:02<9:00:18, 22.50s/it] 59%|█████▉    | 2089/3529 [14:16:30<9:36:41, 24.03s/it] 59%|█████▉    | 2090/3529 [14:16:53<9:30:56, 23.81s/it]                                                        {'loss': 4.2513, 'grad_norm': 19.030284881591797, 'learning_rate': 3.7625075030567683e-06, 'epoch': 0.59}
+ 59%|█████▉    | 2090/3529 [14:16:53<9:30:56, 23.81s/it] 59%|█████▉    | 2091/3529 [14:17:14<9:08:53, 22.90s/it] 59%|█████▉    | 2092/3529 [14:17:37<9:07:22, 22.86s/it] 59%|█████▉    | 2093/3529 [14:18:01<9:19:59, 23.40s/it] 59%|█████▉    | 2094/3529 [14:18:24<9:13:04, 23.13s/it] 59%|█████▉    | 2095/3529 [14:18:48<9:23:30, 23.58s/it] 59%|█████▉    | 2096/3529 [14:19:09<9:02:12, 22.70s/it] 59%|█████▉    | 2097/3529 [14:19:41<10:10:47, 25.59s/it] 59%|█████▉    | 2098/3529 [14:20:04<9:48:16, 24.67s/it]  59%|█████▉    | 2099/3529 [14:20:27<9:34:37, 24.11s/it] 60%|█████▉    | 2100/3529 [14:20:51<9:38:50, 24.30s/it]                                                        {'loss': 3.3586, 'grad_norm': 24.105989456176758, 'learning_rate': 3.718098483217484e-06, 'epoch': 0.59}
+ 60%|█████▉    | 2100/3529 [14:20:51<9:38:50, 24.30s/it] 60%|█████▉    | 2101/3529 [14:21:15<9:35:41, 24.19s/it] 60%|█████▉    | 2102/3529 [14:21:38<9:23:42, 23.70s/it] 60%|█████▉    | 2103/3529 [14:22:01<9:17:23, 23.45s/it] 60%|█████▉    | 2104/3529 [14:22:23<9:09:28, 23.14s/it] 60%|█████▉    | 2105/3529 [14:22:46<9:04:54, 22.96s/it] 60%|█████▉    | 2106/3529 [14:23:06<8:45:47, 22.17s/it] 60%|█████▉    | 2107/3529 [14:23:34<9:24:55, 23.84s/it] 60%|█████▉    | 2108/3529 [14:23:56<9:14:16, 23.40s/it] 60%|█████▉    | 2109/3529 [14:24:17<8:56:23, 22.66s/it] 60%|█████▉    | 2110/3529 [14:24:38<8:43:57, 22.15s/it]                                                        {'loss': 4.2773, 'grad_norm': 38.95778274536133, 'learning_rate': 3.673797441945304e-06, 'epoch': 0.6}
+ 60%|█████▉    | 2110/3529 [14:24:38<8:43:57, 22.15s/it] 60%|█████▉    | 2111/3529 [14:25:06<9:27:35, 24.02s/it] 60%|█████▉    | 2112/3529 [14:25:27<9:01:15, 22.92s/it] 60%|█████▉    | 2113/3529 [14:25:51<9:13:04, 23.44s/it] 60%|█████▉    | 2114/3529 [14:26:14<9:06:50, 23.19s/it] 60%|█████▉    | 2115/3529 [14:26:36<8:59:43, 22.90s/it] 60%|█████▉    | 2116/3529 [14:27:03<9:28:47, 24.15s/it] 60%|█████▉    | 2117/3529 [14:27:25<9:10:56, 23.41s/it] 60%|██████    | 2118/3529 [14:27:52<9:34:27, 24.43s/it] 60%|██████    | 2119/3529 [14:28:11<8:58:04, 22.90s/it] 60%|██████    | 2120/3529 [14:28:38<9:27:41, 24.17s/it]                                                        {'loss': 5.2586, 'grad_norm': 42.26526641845703, 'learning_rate': 3.629608110855248e-06, 'epoch': 0.6}
+ 60%|██████    | 2120/3529 [14:28:38<9:27:41, 24.17s/it] 60%|██████    | 2121/3529 [14:29:02<9:21:10, 23.91s/it] 60%|██████    | 2122/3529 [14:29:31<9:58:36, 25.53s/it] 60%|██████    | 2123/3529 [14:29:54<9:39:50, 24.74s/it] 60%|██████    | 2124/3529 [14:30:19<9:42:21, 24.87s/it] 60%|██████    | 2125/3529 [14:30:43<9:34:07, 24.54s/it] 60%|██████    | 2126/3529 [14:31:05<9:14:03, 23.69s/it] 60%|██████    | 2127/3529 [14:31:28<9:12:19, 23.64s/it] 60%|██████    | 2128/3529 [14:31:53<9:21:34, 24.05s/it] 60%|██████    | 2129/3529 [14:32:19<9:33:41, 24.59s/it] 60%|██████    | 2130/3529 [14:32:47<9:55:00, 25.52s/it]                                                        {'loss': 4.4408, 'grad_norm': 21.60348892211914, 'learning_rate': 3.585534212152643e-06, 'epoch': 0.6}
+ 60%|██████    | 2130/3529 [14:32:47<9:55:00, 25.52s/it] 60%|██████    | 2131/3529 [14:33:10<9:38:55, 24.85s/it] 60%|██████    | 2132/3529 [14:33:42<10:31:59, 27.14s/it] 60%|██████    | 2133/3529 [14:34:07<10:15:47, 26.47s/it] 60%|██████    | 2134/3529 [14:34:36<10:34:32, 27.29s/it] 60%|██████    | 2135/3529 [14:35:02<10:19:31, 26.67s/it] 61%|██████    | 2136/3529 [14:35:29<10:26:01, 26.96s/it] 61%|██████    | 2137/3529 [14:35:52<9:57:31, 25.76s/it]  61%|██████    | 2138/3529 [14:36:20<10:12:04, 26.40s/it] 61%|██████    | 2139/3529 [14:36:42<9:38:55, 24.99s/it]  61%|██████    | 2140/3529 [14:37:09<9:55:18, 25.71s/it]                                                        {'loss': 4.5132, 'grad_norm': 39.41062545776367, 'learning_rate': 3.5415794583195846e-06, 'epoch': 0.61}
+ 61%|██████    | 2140/3529 [14:37:09<9:55:18, 25.71s/it] 61%|██████    | 2141/3529 [14:37:31<9:25:31, 24.45s/it] 61%|██████    | 2142/3529 [14:37:55<9:25:38, 24.47s/it] 61%|██████    | 2143/3529 [14:38:15<8:54:53, 23.16s/it] 61%|██████    | 2144/3529 [14:38:42<9:17:32, 24.15s/it] 61%|██████    | 2145/3529 [14:39:03<8:58:42, 23.35s/it] 61%|██████    | 2146/3529 [14:39:26<8:52:24, 23.10s/it] 61%|██████    | 2147/3529 [14:39:51<9:04:04, 23.62s/it] 61%|██████    | 2148/3529 [14:40:12<8:46:07, 22.86s/it] 61%|██████    | 2149/3529 [14:40:32<8:30:07, 22.18s/it] 61%|██████    | 2150/3529 [14:40:54<8:25:00, 21.97s/it]                                                        {'loss': 8.4284, 'grad_norm': 32.25893783569336, 'learning_rate': 3.497747551802221e-06, 'epoch': 0.61}
+ 61%|██████    | 2150/3529 [14:40:54<8:25:00, 21.97s/it] 61%|██████    | 2151/3529 [14:41:14<8:08:39, 21.28s/it] 61%|██████    | 2152/3529 [14:41:37<8:25:45, 22.04s/it] 61%|██████    | 2153/3529 [14:42:01<8:38:03, 22.59s/it] 61%|██████    | 2154/3529 [14:42:22<8:27:33, 22.15s/it] 61%|██████    | 2155/3529 [14:42:45<8:33:01, 22.40s/it] 61%|██████    | 2156/3529 [14:43:11<8:55:16, 23.39s/it] 61%|██████    | 2157/3529 [14:43:35<9:00:20, 23.63s/it] 61%|██████    | 2158/3529 [14:43:59<9:02:24, 23.74s/it] 61%|██████    | 2159/3529 [14:44:23<8:59:46, 23.64s/it] 61%|██████    | 2160/3529 [14:44:43<8:35:51, 22.61s/it]                                                        {'loss': 6.3801, 'grad_norm': 34.556373596191406, 'learning_rate': 3.4540421846988916e-06, 'epoch': 0.61}
+ 61%|██████    | 2160/3529 [14:44:43<8:35:51, 22.61s/it] 61%|██████    | 2161/3529 [14:45:05<8:30:22, 22.39s/it] 61%|██████▏   | 2162/3529 [14:45:28<8:33:30, 22.54s/it] 61%|██████▏   | 2163/3529 [14:45:51<8:41:15, 22.90s/it] 61%|██████▏   | 2164/3529 [14:46:16<8:56:04, 23.56s/it] 61%|██████▏   | 2165/3529 [14:46:38<8:39:04, 22.83s/it] 61%|██████▏   | 2166/3529 [14:46:59<8:31:26, 22.51s/it] 61%|██████▏   | 2167/3529 [14:47:21<8:25:18, 22.26s/it] 61%|██████▏   | 2168/3529 [14:47:44<8:30:23, 22.50s/it] 61%|██████▏   | 2169/3529 [14:48:08<8:36:44, 22.80s/it] 61%|██████▏   | 2170/3529 [14:48:34<9:02:28, 23.95s/it]                                                        {'loss': 5.5573, 'grad_norm': 27.99374771118164, 'learning_rate': 3.4104670384491234e-06, 'epoch': 0.61}
+ 61%|██████▏   | 2170/3529 [14:48:34<9:02:28, 23.95s/it] 62%|██████▏   | 2171/3529 [14:48:58<9:01:41, 23.93s/it] 62%|██████▏   | 2172/3529 [14:49:21<8:52:28, 23.54s/it] 62%|██████▏   | 2173/3529 [14:49:44<8:51:34, 23.52s/it] 62%|██████▏   | 2174/3529 [14:50:08<8:55:01, 23.69s/it] 62%|██████▏   | 2175/3529 [14:50:31<8:45:13, 23.27s/it] 62%|██████▏   | 2176/3529 [14:50:53<8:40:18, 23.07s/it] 62%|██████▏   | 2177/3529 [14:51:15<8:34:13, 22.82s/it] 62%|██████▏   | 2178/3529 [14:51:37<8:24:37, 22.41s/it] 62%|██████▏   | 2179/3529 [14:51:58<8:15:54, 22.04s/it] 62%|██████▏   | 2180/3529 [14:52:23<8:33:56, 22.86s/it]                                                        {'loss': 4.2779, 'grad_norm': 23.997901916503906, 'learning_rate': 3.367025783523534e-06, 'epoch': 0.62}
+ 62%|██████▏   | 2180/3529 [14:52:23<8:33:56, 22.86s/it] 62%|██████▏   | 2181/3529 [14:52:45<8:30:52, 22.74s/it] 62%|██████▏   | 2182/3529 [14:53:08<8:29:20, 22.69s/it] 62%|██████▏   | 2183/3529 [14:53:30<8:28:55, 22.69s/it] 62%|██████▏   | 2184/3529 [14:53:53<8:28:01, 22.66s/it] 62%|██████▏   | 2185/3529 [14:54:16<8:27:27, 22.65s/it] 62%|██████▏   | 2186/3529 [14:54:36<8:09:22, 21.86s/it] 62%|██████▏   | 2187/3529 [14:54:56<7:58:56, 21.41s/it] 62%|██████▏   | 2188/3529 [14:55:20<8:13:30, 22.08s/it] 62%|██████▏   | 2189/3529 [14:55:40<7:57:59, 21.40s/it] 62%|██████▏   | 2190/3529 [14:56:01<7:58:05, 21.42s/it]                                                        {'loss': 5.241, 'grad_norm': 41.76970291137695, 'learning_rate': 3.3237220791146597e-06, 'epoch': 0.62}
+ 62%|██████▏   | 2190/3529 [14:56:01<7:58:05, 21.42s/it] 62%|██████▏   | 2191/3529 [14:56:22<7:55:00, 21.30s/it] 62%|██████▏   | 2192/3529 [14:56:43<7:53:10, 21.23s/it] 62%|██████▏   | 2193/3529 [14:57:03<7:43:30, 20.82s/it] 62%|██████▏   | 2194/3529 [14:57:26<7:56:33, 21.42s/it] 62%|██████▏   | 2195/3529 [14:57:48<8:02:03, 21.68s/it] 62%|██████▏   | 2196/3529 [14:58:13<8:22:49, 22.63s/it] 62%|██████▏   | 2197/3529 [14:58:35<8:19:43, 22.51s/it] 62%|██████▏   | 2198/3529 [14:58:58<8:21:12, 22.59s/it] 62%|██████▏   | 2199/3529 [14:59:21<8:20:26, 22.58s/it] 62%|██████▏   | 2200/3529 [14:59:42<8:15:15, 22.36s/it]                                                        {'loss': 4.2649, 'grad_norm': 27.922670364379883, 'learning_rate': 3.2805595728287255e-06, 'epoch': 0.62}
+ 62%|██████▏   | 2200/3529 [14:59:42<8:15:15, 22.36s/it] 62%|██████▏   | 2201/3529 [15:00:05<8:16:49, 22.45s/it] 62%|██████▏   | 2202/3529 [15:00:34<9:02:40, 24.54s/it] 62%|██████▏   | 2203/3529 [15:00:57<8:49:51, 23.98s/it] 62%|██████▏   | 2204/3529 [15:01:20<8:45:13, 23.78s/it] 62%|██████▏   | 2205/3529 [15:01:44<8:42:34, 23.68s/it] 63%|██████▎   | 2206/3529 [15:02:07<8:36:29, 23.42s/it] 63%|██████▎   | 2207/3529 [15:02:28<8:18:49, 22.64s/it] 63%|██████▎   | 2208/3529 [15:02:47<7:59:10, 21.76s/it] 63%|██████▎   | 2209/3529 [15:03:09<7:58:14, 21.74s/it] 63%|██████▎   | 2210/3529 [15:03:37<8:38:43, 23.60s/it]                                                        {'loss': 6.0635, 'grad_norm': 33.54890060424805, 'learning_rate': 3.2375419003783957e-06, 'epoch': 0.63}
+ 63%|██████▎   | 2210/3529 [15:03:37<8:38:43, 23.60s/it] 63%|██████▎   | 2211/3529 [15:04:00<8:38:02, 23.58s/it] 63%|██████▎   | 2212/3529 [15:04:23<8:28:25, 23.16s/it] 63%|██████▎   | 2213/3529 [15:04:43<8:13:19, 22.49s/it] 63%|██████▎   | 2214/3529 [15:05:05<8:03:24, 22.06s/it] 63%|██████▎   | 2215/3529 [15:05:26<7:57:41, 21.81s/it] 63%|██████▎   | 2216/3529 [15:05:47<7:55:59, 21.75s/it] 63%|██████▎   | 2217/3529 [15:06:12<8:17:11, 22.74s/it] 63%|██████▎   | 2218/3529 [15:06:38<8:32:39, 23.46s/it] 63%|██████▎   | 2219/3529 [15:07:03<8:43:03, 23.96s/it] 63%|██████▎   | 2220/3529 [15:07:25<8:32:52, 23.51s/it]                                                        {'loss': 5.1542, 'grad_norm': 21.987178802490234, 'learning_rate': 3.1946726852765325e-06, 'epoch': 0.63}
+ 63%|██████▎   | 2220/3529 [15:07:25<8:32:52, 23.51s/it] 63%|██████▎   | 2221/3529 [15:07:46<8:14:59, 22.71s/it] 63%|██████▎   | 2222/3529 [15:08:07<8:00:44, 22.07s/it] 63%|██████▎   | 2223/3529 [15:08:32<8:23:43, 23.14s/it] 63%|██████▎   | 2224/3529 [15:09:01<8:58:50, 24.77s/it] 63%|██████▎   | 2225/3529 [15:09:26<9:01:11, 24.90s/it] 63%|██████▎   | 2226/3529 [15:09:48<8:44:29, 24.15s/it] 63%|██████▎   | 2227/3529 [15:10:14<8:50:38, 24.45s/it] 63%|██████▎   | 2228/3529 [15:10:40<9:03:45, 25.08s/it] 63%|██████▎   | 2229/3529 [15:11:03<8:48:52, 24.41s/it] 63%|██████▎   | 2230/3529 [15:11:26<8:41:41, 24.10s/it]                                                        {'loss': 4.2332, 'grad_norm': 35.2348518371582, 'learning_rate': 3.1519555385309685e-06, 'epoch': 0.63}
+ 63%|██████▎   | 2230/3529 [15:11:26<8:41:41, 24.10s/it] 63%|██████▎   | 2231/3529 [15:11:47<8:22:10, 23.21s/it] 63%|██████▎   | 2232/3529 [15:12:06<7:53:14, 21.89s/it] 63%|██████▎   | 2233/3529 [15:12:28<7:53:37, 21.93s/it] 63%|██████▎   | 2234/3529 [15:12:55<8:21:36, 23.24s/it] 63%|██████▎   | 2235/3529 [15:13:16<8:07:10, 22.59s/it] 63%|██████▎   | 2236/3529 [15:13:36<7:55:03, 22.04s/it] 63%|██████▎   | 2237/3529 [15:13:55<7:32:26, 21.01s/it] 63%|██████▎   | 2238/3529 [15:14:16<7:33:08, 21.06s/it] 63%|██████▎   | 2239/3529 [15:14:37<7:33:37, 21.10s/it] 63%|██████▎   | 2240/3529 [15:14:57<7:23:56, 20.66s/it]                                                        {'loss': 8.0693, 'grad_norm': 39.060691833496094, 'learning_rate': 3.1093940583403447e-06, 'epoch': 0.63}
+ 63%|██████▎   | 2240/3529 [15:14:57<7:23:56, 20.66s/it] 64%|██████▎   | 2241/3529 [15:15:21<7:46:30, 21.73s/it] 64%|██████▎   | 2242/3529 [15:15:44<7:51:43, 21.99s/it] 64%|██████▎   | 2243/3529 [15:16:06<7:53:11, 22.08s/it] 64%|██████▎   | 2244/3529 [15:16:26<7:39:50, 21.47s/it] 64%|██████▎   | 2245/3529 [15:16:49<7:47:50, 21.86s/it] 64%|██████▎   | 2246/3529 [15:17:13<8:03:02, 22.59s/it] 64%|██████▎   | 2247/3529 [15:17:38<8:15:31, 23.19s/it] 64%|██████▎   | 2248/3529 [15:17:57<7:48:29, 21.94s/it] 64%|██████▎   | 2249/3529 [15:18:19<7:47:34, 21.92s/it] 64%|██████▍   | 2250/3529 [15:18:42<7:52:36, 22.17s/it]                                                        {'loss': 5.3108, 'grad_norm': 20.76451873779297, 'learning_rate': 3.066991829791024e-06, 'epoch': 0.64}
+ 64%|██████▍   | 2250/3529 [15:18:42<7:52:36, 22.17s/it] 64%|██████▍   | 2251/3529 [15:19:03<7:51:00, 22.11s/it] 64%|██████▍   | 2252/3529 [15:19:26<7:53:02, 22.23s/it] 64%|██████▍   | 2253/3529 [15:19:50<8:02:54, 22.71s/it] 64%|██████▍   | 2254/3529 [15:20:16<8:26:46, 23.85s/it] 64%|██████▍   | 2255/3529 [15:20:39<8:17:17, 23.42s/it] 64%|██████▍   | 2256/3529 [15:21:01<8:11:13, 23.15s/it] 64%|██████▍   | 2257/3529 [15:21:29<8:40:49, 24.57s/it] 64%|██████▍   | 2258/3529 [15:21:52<8:28:26, 24.00s/it] 64%|██████▍   | 2259/3529 [15:22:13<8:07:52, 23.05s/it] 64%|██████▍   | 2260/3529 [15:22:35<8:01:54, 22.79s/it]                                                        {'loss': 4.2548, 'grad_norm': 40.92884826660156, 'learning_rate': 3.024752424555105e-06, 'epoch': 0.64}
+ 64%|██████▍   | 2260/3529 [15:22:35<8:01:54, 22.79s/it] 64%|██████▍   | 2261/3529 [15:22:57<7:57:54, 22.61s/it] 64%|██████▍   | 2262/3529 [15:23:19<7:55:13, 22.50s/it] 64%|██████▍   | 2263/3529 [15:23:40<7:44:02, 21.99s/it] 64%|██████▍   | 2264/3529 [15:24:06<8:06:42, 23.09s/it] 64%|██████▍   | 2265/3529 [15:24:29<8:04:39, 23.01s/it] 64%|██████▍   | 2266/3529 [15:24:50<7:53:58, 22.52s/it] 64%|██████▍   | 2267/3529 [15:25:09<7:34:52, 21.63s/it] 64%|██████▍   | 2268/3529 [15:25:32<7:38:33, 21.82s/it] 64%|██████▍   | 2269/3529 [15:25:54<7:41:04, 21.96s/it] 64%|██████▍   | 2270/3529 [15:26:18<7:53:52, 22.58s/it]                                                        {'loss': 5.3648, 'grad_norm': 24.043121337890625, 'learning_rate': 2.982679400589569e-06, 'epoch': 0.64}
+ 64%|██████▍   | 2270/3529 [15:26:18<7:53:52, 22.58s/it] 64%|██████▍   | 2271/3529 [15:26:43<8:08:37, 23.30s/it] 64%|██████▍   | 2272/3529 [15:27:02<7:43:15, 22.11s/it] 64%|██████▍   | 2273/3529 [15:27:24<7:36:52, 21.83s/it] 64%|██████▍   | 2274/3529 [15:27:46<7:43:35, 22.16s/it] 64%|██████▍   | 2275/3529 [15:28:11<7:59:50, 22.96s/it] 64%|██████▍   | 2276/3529 [15:28:34<7:57:34, 22.87s/it] 65%|██████▍   | 2277/3529 [15:28:54<7:41:38, 22.12s/it] 65%|██████▍   | 2278/3529 [15:29:18<7:53:09, 22.69s/it] 65%|██████▍   | 2279/3529 [15:29:41<7:54:31, 22.78s/it] 65%|██████▍   | 2280/3529 [15:30:02<7:39:18, 22.06s/it]                                                        {'loss': 4.2817, 'grad_norm': 22.929412841796875, 'learning_rate': 2.9407763018365854e-06, 'epoch': 0.65}
+ 65%|██████▍   | 2280/3529 [15:30:02<7:39:18, 22.06s/it] 65%|██████▍   | 2281/3529 [15:30:21<7:20:31, 21.18s/it] 65%|██████▍   | 2282/3529 [15:30:42<7:20:16, 21.18s/it] 65%|██████▍   | 2283/3529 [15:31:03<7:17:17, 21.06s/it] 65%|██████▍   | 2284/3529 [15:31:24<7:17:27, 21.08s/it] 65%|██████▍   | 2285/3529 [15:31:43<7:04:15, 20.46s/it] 65%|██████▍   | 2286/3529 [15:32:04<7:08:23, 20.68s/it] 65%|██████▍   | 2287/3529 [15:32:23<6:57:47, 20.18s/it] 65%|██████▍   | 2288/3529 [15:32:45<7:08:22, 20.71s/it] 65%|██████▍   | 2289/3529 [15:33:09<7:24:47, 21.52s/it] 65%|██████▍   | 2290/3529 [15:33:30<7:21:51, 21.40s/it]                                                        {'loss': 7.9167, 'grad_norm': 36.0571174621582, 'learning_rate': 2.899046657924992e-06, 'epoch': 0.65}
+ 65%|██████▍   | 2290/3529 [15:33:30<7:21:51, 21.40s/it] 65%|██████▍   | 2291/3529 [15:34:00<8:14:01, 23.94s/it] 65%|██████▍   | 2292/3529 [15:34:19<7:48:56, 22.75s/it] 65%|██████▍   | 2293/3529 [15:34:48<8:21:18, 24.34s/it] 65%|██████▌   | 2294/3529 [15:35:10<8:09:34, 23.79s/it] 65%|██████▌   | 2295/3529 [15:35:36<8:20:13, 24.32s/it] 65%|██████▌   | 2296/3529 [15:35:58<8:05:36, 23.63s/it] 65%|██████▌   | 2297/3529 [15:36:18<7:44:12, 22.61s/it] 65%|██████▌   | 2298/3529 [15:36:39<7:32:58, 22.08s/it] 65%|██████▌   | 2299/3529 [15:37:00<7:26:25, 21.78s/it] 65%|██████▌   | 2300/3529 [15:37:25<7:47:08, 22.81s/it]                                                        {'loss': 4.44, 'grad_norm': 23.849647521972656, 'learning_rate': 2.8574939838729844e-06, 'epoch': 0.65}
+ 65%|██████▌   | 2300/3529 [15:37:25<7:47:08, 22.81s/it] 65%|██████▌   | 2301/3529 [15:37:48<7:45:52, 22.76s/it] 65%|██████▌   | 2302/3529 [15:38:10<7:45:05, 22.74s/it] 65%|██████▌   | 2303/3529 [15:38:30<7:26:09, 21.84s/it] 65%|██████▌   | 2304/3529 [15:38:51<7:18:55, 21.50s/it] 65%|██████▌   | 2305/3529 [15:39:13<7:24:27, 21.79s/it] 65%|██████▌   | 2306/3529 [15:39:36<7:30:06, 22.08s/it] 65%|██████▌   | 2307/3529 [15:40:01<7:48:53, 23.02s/it] 65%|██████▌   | 2308/3529 [15:40:20<7:24:44, 21.85s/it] 65%|██████▌   | 2309/3529 [15:40:40<7:11:26, 21.22s/it] 65%|██████▌   | 2310/3529 [15:41:02<7:12:45, 21.30s/it]                                                        {'loss': 5.6655, 'grad_norm': 42.65750503540039, 'learning_rate': 2.8161217797920304e-06, 'epoch': 0.65}
+ 65%|██████▌   | 2310/3529 [15:41:02<7:12:45, 21.30s/it] 65%|██████▌   | 2311/3529 [15:41:24<7:20:47, 21.71s/it] 66%|██████▌   | 2312/3529 [15:41:47<7:24:37, 21.92s/it] 66%|██████▌   | 2313/3529 [15:42:10<7:32:50, 22.34s/it] 66%|██████▌   | 2314/3529 [15:42:33<7:33:58, 22.42s/it] 66%|██████▌   | 2315/3529 [15:42:56<7:40:30, 22.76s/it] 66%|██████▌   | 2316/3529 [15:43:17<7:30:51, 22.30s/it] 66%|██████▌   | 2317/3529 [15:43:38<7:20:38, 21.81s/it] 66%|██████▌   | 2318/3529 [15:43:59<7:14:21, 21.52s/it] 66%|██████▌   | 2319/3529 [15:44:20<7:09:52, 21.32s/it] 66%|██████▌   | 2320/3529 [15:44:42<7:15:30, 21.61s/it]                                                        {'loss': 5.4841, 'grad_norm': 23.45660400390625, 'learning_rate': 2.774933530592054e-06, 'epoch': 0.66}
+ 66%|██████▌   | 2320/3529 [15:44:42<7:15:30, 21.61s/it] 66%|██████▌   | 2321/3529 [15:45:05<7:20:51, 21.90s/it] 66%|██████▌   | 2322/3529 [15:45:31<7:49:17, 23.33s/it] 66%|██████▌   | 2323/3529 [15:45:54<7:45:55, 23.18s/it] 66%|██████▌   | 2324/3529 [15:46:15<7:29:26, 22.38s/it] 66%|██████▌   | 2325/3529 [15:46:37<7:30:57, 22.47s/it] 66%|██████▌   | 2326/3529 [15:47:00<7:31:33, 22.52s/it] 66%|██████▌   | 2327/3529 [15:47:22<7:28:14, 22.37s/it] 66%|██████▌   | 2328/3529 [15:47:44<7:26:09, 22.29s/it] 66%|██████▌   | 2329/3529 [15:48:10<7:48:01, 23.40s/it] 66%|██████▌   | 2330/3529 [15:48:33<7:42:51, 23.16s/it]                                                        {'loss': 3.3468, 'grad_norm': 21.22451400756836, 'learning_rate': 2.733932705687883e-06, 'epoch': 0.66}
+ 66%|██████▌   | 2330/3529 [15:48:33<7:42:51, 23.16s/it] 66%|██████▌   | 2331/3529 [15:48:52<7:18:24, 21.96s/it] 66%|██████▌   | 2332/3529 [15:49:16<7:31:52, 22.65s/it] 66%|██████▌   | 2333/3529 [15:49:39<7:31:05, 22.63s/it] 66%|██████▌   | 2334/3529 [15:50:01<7:29:53, 22.59s/it] 66%|██████▌   | 2335/3529 [15:50:22<7:20:21, 22.13s/it] 66%|██████▌   | 2336/3529 [15:50:43<7:10:42, 21.66s/it] 66%|██████▌   | 2337/3529 [15:51:06<7:19:48, 22.14s/it] 66%|██████▋   | 2338/3529 [15:51:30<7:32:44, 22.81s/it] 66%|██████▋   | 2339/3529 [15:51:51<7:18:41, 22.12s/it] 66%|██████▋   | 2340/3529 [15:52:12<7:12:58, 21.85s/it]                                                        {'loss': 5.1606, 'grad_norm': 37.178993225097656, 'learning_rate': 2.693122758707013e-06, 'epoch': 0.66}
+ 66%|██████▋   | 2340/3529 [15:52:12<7:12:58, 21.85s/it] 66%|██████▋   | 2341/3529 [15:52:32<7:01:24, 21.28s/it] 66%|██████▋   | 2342/3529 [15:52:53<7:00:05, 21.23s/it] 66%|██████▋   | 2343/3529 [15:53:12<6:46:24, 20.56s/it] 66%|██████▋   | 2344/3529 [15:53:33<6:48:02, 20.66s/it] 66%|██████▋   | 2345/3529 [15:53:53<6:44:53, 20.52s/it] 66%|██████▋   | 2346/3529 [15:54:23<7:39:53, 23.33s/it] 67%|██████▋   | 2347/3529 [15:54:43<7:21:53, 22.43s/it] 67%|██████▋   | 2348/3529 [15:55:05<7:14:14, 22.06s/it] 67%|██████▋   | 2349/3529 [15:55:26<7:10:11, 21.87s/it] 67%|██████▋   | 2350/3529 [15:55:49<7:14:29, 22.11s/it]                                                        {'loss': 7.2961, 'grad_norm': 24.34912109375, 'learning_rate': 2.652507127198689e-06, 'epoch': 0.67}
+ 67%|██████▋   | 2350/3529 [15:55:49<7:14:29, 22.11s/it] 67%|██████▋   | 2351/3529 [15:56:11<7:16:02, 22.21s/it] 67%|██████▋   | 2352/3529 [15:56:34<7:19:19, 22.40s/it] 67%|██████▋   | 2353/3529 [15:56:55<7:11:36, 22.02s/it] 67%|██████▋   | 2354/3529 [15:57:16<7:06:13, 21.76s/it] 67%|██████▋   | 2355/3529 [15:57:43<7:32:00, 23.10s/it] 67%|██████▋   | 2356/3529 [15:58:03<7:15:30, 22.28s/it] 67%|██████▋   | 2357/3529 [15:58:25<7:16:29, 22.35s/it] 67%|██████▋   | 2358/3529 [15:58:49<7:21:01, 22.60s/it] 67%|██████▋   | 2359/3529 [15:59:08<7:04:04, 21.75s/it] 67%|██████▋   | 2360/3529 [15:59:30<7:00:43, 21.59s/it]                                                        {'loss': 6.3695, 'grad_norm': 40.61592483520508, 'learning_rate': 2.612089232344371e-06, 'epoch': 0.67}
+ 67%|██████▋   | 2360/3529 [15:59:30<7:00:43, 21.59s/it] 67%|██████▋   | 2361/3529 [15:59:53<7:12:28, 22.22s/it] 67%|██████▋   | 2362/3529 [16:00:16<7:16:20, 22.43s/it] 67%|██████▋   | 2363/3529 [16:00:39<7:18:06, 22.54s/it] 67%|██████▋   | 2364/3529 [16:01:02<7:19:25, 22.63s/it] 67%|██████▋   | 2365/3529 [16:01:22<7:05:24, 21.93s/it] 67%|██████▋   | 2366/3529 [16:01:45<7:07:57, 22.08s/it] 67%|██████▋   | 2367/3529 [16:02:08<7:14:38, 22.44s/it] 67%|██████▋   | 2368/3529 [16:02:33<7:28:56, 23.20s/it] 67%|██████▋   | 2369/3529 [16:02:56<7:26:11, 23.08s/it] 67%|██████▋   | 2370/3529 [16:03:21<7:36:32, 23.63s/it]                                                        {'loss': 3.3039, 'grad_norm': 20.37811279296875, 'learning_rate': 2.571872478669528e-06, 'epoch': 0.67}
+ 67%|██████▋   | 2370/3529 [16:03:21<7:36:32, 23.63s/it] 67%|██████▋   | 2371/3529 [16:03:43<7:31:05, 23.37s/it] 67%|██████▋   | 2372/3529 [16:04:06<7:28:49, 23.28s/it] 67%|██████▋   | 2373/3529 [16:04:29<7:26:35, 23.18s/it] 67%|██████▋   | 2374/3529 [16:04:53<7:30:47, 23.42s/it] 67%|██████▋   | 2375/3529 [16:05:16<7:27:30, 23.27s/it] 67%|██████▋   | 2376/3529 [16:05:37<7:15:05, 22.64s/it] 67%|██████▋   | 2377/3529 [16:05:58<7:03:40, 22.07s/it] 67%|██████▋   | 2378/3529 [16:06:23<7:18:55, 22.88s/it] 67%|██████▋   | 2379/3529 [16:06:46<7:18:50, 22.90s/it] 67%|██████▋   | 2380/3529 [16:07:09<7:17:38, 22.85s/it]                                                        {'loss': 4.2973, 'grad_norm': 25.745912551879883, 'learning_rate': 2.5318602537568904e-06, 'epoch': 0.67}
+ 67%|██████▋   | 2380/3529 [16:07:09<7:17:38, 22.85s/it] 67%|██████▋   | 2381/3529 [16:07:29<7:01:06, 22.01s/it] 67%|██████▋   | 2382/3529 [16:07:50<6:57:24, 21.84s/it] 68%|██████▊   | 2383/3529 [16:08:10<6:47:40, 21.34s/it] 68%|██████▊   | 2384/3529 [16:08:35<7:08:55, 22.48s/it] 68%|██████▊   | 2385/3529 [16:08:58<7:09:59, 22.55s/it] 68%|██████▊   | 2386/3529 [16:09:23<7:24:42, 23.34s/it] 68%|██████▊   | 2387/3529 [16:09:46<7:23:03, 23.28s/it] 68%|██████▊   | 2388/3529 [16:10:09<7:20:04, 23.14s/it] 68%|██████▊   | 2389/3529 [16:10:33<7:21:50, 23.25s/it] 68%|██████▊   | 2390/3529 [16:10:56<7:19:57, 23.18s/it]                                                        {'loss': 4.1162, 'grad_norm': 22.395126342773438, 'learning_rate': 2.4920559279610886e-06, 'epoch': 0.68}
+ 68%|██████▊   | 2390/3529 [16:10:56<7:19:57, 23.18s/it] 68%|██████▊   | 2391/3529 [16:11:19<7:17:33, 23.07s/it] 68%|██████▊   | 2392/3529 [16:11:41<7:12:02, 22.80s/it] 68%|██████▊   | 2393/3529 [16:12:06<7:22:59, 23.40s/it] 68%|██████▊   | 2394/3529 [16:12:30<7:29:35, 23.77s/it] 68%|██████▊   | 2395/3529 [16:12:58<7:50:36, 24.90s/it] 68%|██████▊   | 2396/3529 [16:13:17<7:17:29, 23.17s/it] 68%|██████▊   | 2397/3529 [16:13:39<7:09:00, 22.74s/it] 68%|██████▊   | 2398/3529 [16:14:05<7:27:21, 23.73s/it] 68%|██████▊   | 2399/3529 [16:14:25<7:09:55, 22.83s/it] 68%|██████▊   | 2400/3529 [16:14:50<7:21:41, 23.47s/it]                                                        {'loss': 4.1658, 'grad_norm': 34.32621383666992, 'learning_rate': 2.452462854124758e-06, 'epoch': 0.68}
+ 68%|██████▊   | 2400/3529 [16:14:50<7:21:41, 23.47s/it] 68%|██████▊   | 2401/3529 [16:15:15<7:27:55, 23.83s/it] 68%|██████▊   | 2402/3529 [16:15:40<7:34:59, 24.22s/it] 68%|██████▊   | 2403/3529 [16:16:03<7:27:34, 23.85s/it] 68%|██████▊   | 2404/3529 [16:16:29<7:36:27, 24.34s/it] 68%|██████▊   | 2405/3529 [16:16:52<7:28:30, 23.94s/it] 68%|██████▊   | 2406/3529 [16:17:10<6:57:20, 22.30s/it] 68%|██████▊   | 2407/3529 [16:17:31<6:47:44, 21.80s/it] 68%|██████▊   | 2408/3529 [16:17:52<6:44:16, 21.64s/it] 68%|██████▊   | 2409/3529 [16:18:11<6:30:48, 20.94s/it] 68%|██████▊   | 2410/3529 [16:18:33<6:32:25, 21.04s/it]                                                        {'loss': 6.3083, 'grad_norm': 39.03499984741211, 'learning_rate': 2.413084367296127e-06, 'epoch': 0.68}
+ 68%|██████▊   | 2410/3529 [16:18:33<6:32:25, 21.04s/it] 68%|██████▊   | 2411/3529 [16:18:57<6:51:17, 22.07s/it] 68%|██████▊   | 2412/3529 [16:19:20<6:55:48, 22.34s/it] 68%|██████▊   | 2413/3529 [16:19:42<6:51:40, 22.13s/it] 68%|██████▊   | 2414/3529 [16:20:04<6:54:26, 22.30s/it] 68%|██████▊   | 2415/3529 [16:20:27<6:56:37, 22.44s/it] 68%|██████▊   | 2416/3529 [16:20:53<7:14:14, 23.41s/it] 68%|██████▊   | 2417/3529 [16:21:16<7:15:46, 23.51s/it] 69%|██████▊   | 2418/3529 [16:21:38<7:03:02, 22.85s/it] 69%|██████▊   | 2419/3529 [16:22:00<7:01:47, 22.80s/it] 69%|██████▊   | 2420/3529 [16:22:28<7:27:24, 24.21s/it]                                                        {'loss': 4.2861, 'grad_norm': 47.788394927978516, 'learning_rate': 2.373923784448089e-06, 'epoch': 0.69}
+ 69%|██████▊   | 2420/3529 [16:22:28<7:27:24, 24.21s/it] 69%|██████▊   | 2421/3529 [16:22:51<7:18:01, 23.72s/it] 69%|██████▊   | 2422/3529 [16:23:11<6:58:02, 22.66s/it] 69%|██████▊   | 2423/3529 [16:23:38<7:25:29, 24.17s/it] 69%|██████▊   | 2424/3529 [16:23:59<7:07:59, 23.24s/it] 69%|██████▊   | 2425/3529 [16:24:21<6:55:52, 22.60s/it] 69%|██████▊   | 2426/3529 [16:24:46<7:08:37, 23.32s/it] 69%|██████▉   | 2427/3529 [16:25:08<7:04:47, 23.13s/it] 69%|██████▉   | 2428/3529 [16:25:31<7:01:50, 22.99s/it] 69%|██████▉   | 2429/3529 [16:25:54<7:01:51, 23.01s/it] 69%|██████▉   | 2430/3529 [16:26:18<7:08:16, 23.38s/it]                                                        {'loss': 4.3008, 'grad_norm': 26.90192413330078, 'learning_rate': 2.3349844041988044e-06, 'epoch': 0.69}
+ 69%|██████▉   | 2430/3529 [16:26:18<7:08:16, 23.38s/it] 69%|██████▉   | 2431/3529 [16:26:41<7:03:39, 23.15s/it] 69%|██████▉   | 2432/3529 [16:27:07<7:18:36, 23.99s/it] 69%|██████▉   | 2433/3529 [16:27:29<7:10:36, 23.57s/it] 69%|██████▉   | 2434/3529 [16:27:51<6:57:31, 22.88s/it] 69%|██████▉   | 2435/3529 [16:28:12<6:47:47, 22.37s/it] 69%|██████▉   | 2436/3529 [16:28:35<6:52:27, 22.64s/it] 69%|██████▉   | 2437/3529 [16:28:56<6:43:04, 22.15s/it] 69%|██████▉   | 2438/3529 [16:29:17<6:36:42, 21.82s/it] 69%|██████▉   | 2439/3529 [16:29:42<6:51:57, 22.68s/it] 69%|██████▉   | 2440/3529 [16:30:01<6:31:58, 21.60s/it]                                                        {'loss': 5.2767, 'grad_norm': 22.178869247436523, 'learning_rate': 2.296269506533846e-06, 'epoch': 0.69}
+ 69%|██████▉   | 2440/3529 [16:30:01<6:31:58, 21.60s/it] 69%|██████▉   | 2441/3529 [16:30:23<6:34:44, 21.77s/it] 69%|██████▉   | 2442/3529 [16:30:44<6:30:57, 21.58s/it] 69%|██████▉   | 2443/3529 [16:31:04<6:22:26, 21.13s/it] 69%|██████▉   | 2444/3529 [16:31:25<6:21:06, 21.08s/it] 69%|██████▉   | 2445/3529 [16:31:48<6:31:56, 21.69s/it] 69%|██████▉   | 2446/3529 [16:32:09<6:26:01, 21.39s/it] 69%|██████▉   | 2447/3529 [16:32:30<6:24:01, 21.30s/it] 69%|██████▉   | 2448/3529 [16:32:56<6:50:36, 22.79s/it] 69%|██████▉   | 2449/3529 [16:33:21<6:58:57, 23.28s/it] 69%|██████▉   | 2450/3529 [16:33:45<7:03:27, 23.55s/it]                                                        {'loss': 7.1097, 'grad_norm': 21.529335021972656, 'learning_rate': 2.2577823525299205e-06, 'epoch': 0.69}
+ 69%|██████▉   | 2450/3529 [16:33:45<7:03:27, 23.55s/it] 69%|██████▉   | 2451/3529 [16:34:09<7:04:01, 23.60s/it] 69%|██████▉   | 2452/3529 [16:34:29<6:44:34, 22.54s/it] 70%|██████▉   | 2453/3529 [16:34:50<6:36:42, 22.12s/it] 70%|██████▉   | 2454/3529 [16:35:10<6:25:18, 21.51s/it] 70%|██████▉   | 2455/3529 [16:35:32<6:29:01, 21.73s/it] 70%|██████▉   | 2456/3529 [16:35:55<6:32:01, 21.92s/it] 70%|██████▉   | 2457/3529 [16:36:13<6:14:00, 20.93s/it] 70%|██████▉   | 2458/3529 [16:36:33<6:06:28, 20.53s/it] 70%|██████▉   | 2459/3529 [16:36:55<6:12:40, 20.90s/it] 70%|██████▉   | 2460/3529 [16:37:16<6:15:11, 21.06s/it]                                                        {'loss': 7.1815, 'grad_norm': 20.215675354003906, 'learning_rate': 2.2195261840801757e-06, 'epoch': 0.7}
+ 70%|██████▉   | 2460/3529 [16:37:16<6:15:11, 21.06s/it] 70%|██████▉   | 2461/3529 [16:37:38<6:18:22, 21.26s/it] 70%|██████▉   | 2462/3529 [16:38:03<6:40:51, 22.54s/it] 70%|██████▉   | 2463/3529 [16:38:25<6:34:30, 22.20s/it] 70%|██████▉   | 2464/3529 [16:38:47<6:31:59, 22.08s/it] 70%|██████▉   | 2465/3529 [16:39:06<6:15:51, 21.19s/it] 70%|██████▉   | 2466/3529 [16:39:27<6:15:52, 21.22s/it] 70%|██████▉   | 2467/3529 [16:39:48<6:16:49, 21.29s/it] 70%|██████▉   | 2468/3529 [16:40:10<6:19:24, 21.46s/it] 70%|██████▉   | 2469/3529 [16:40:34<6:31:05, 22.14s/it] 70%|██████▉   | 2470/3529 [16:41:00<6:50:13, 23.24s/it]                                                        {'loss': 6.9142, 'grad_norm': 21.300861358642578, 'learning_rate': 2.18150422362112e-06, 'epoch': 0.7}
+ 70%|██████▉   | 2470/3529 [16:41:00<6:50:13, 23.24s/it] 70%|███████   | 2471/3529 [16:41:24<6:55:15, 23.55s/it] 70%|███████   | 2472/3529 [16:41:46<6:45:08, 23.00s/it] 70%|███████   | 2473/3529 [16:42:08<6:40:24, 22.75s/it] 70%|███████   | 2474/3529 [16:42:31<6:41:36, 22.84s/it] 70%|███████   | 2475/3529 [16:42:54<6:44:22, 23.02s/it] 70%|███████   | 2476/3529 [16:43:39<8:39:32, 29.60s/it] 70%|███████   | 2477/3529 [16:44:26<10:09:31, 34.76s/it] 70%|███████   | 2478/3529 [16:45:06<10:34:14, 36.21s/it] 70%|███████   | 2479/3529 [16:45:49<11:12:12, 38.41s/it] 70%|███████   | 2480/3529 [16:46:10<9:38:09, 33.07s/it]                                                         {'loss': 4.4774, 'grad_norm': 30.098453521728516, 'learning_rate': 2.1437196738611958e-06, 'epoch': 0.7}
+ 70%|███████   | 2480/3529 [16:46:10<9:38:09, 33.07s/it] 70%|███████   | 2481/3529 [16:46:44<9:41:00, 33.26s/it] 70%|███████   | 2482/3529 [16:47:08<8:53:23, 30.57s/it] 70%|███████   | 2483/3529 [16:47:31<8:15:06, 28.40s/it] 70%|███████   | 2484/3529 [16:47:53<7:37:17, 26.26s/it] 70%|███████   | 2485/3529 [16:48:14<7:09:46, 24.70s/it] 70%|███████   | 2486/3529 [16:48:38<7:08:43, 24.66s/it] 70%|███████   | 2487/3529 [16:48:59<6:48:15, 23.51s/it] 71%|███████   | 2488/3529 [16:49:24<6:54:52, 23.91s/it] 71%|███████   | 2489/3529 [16:49:47<6:50:20, 23.67s/it] 71%|███████   | 2490/3529 [16:50:10<6:45:20, 23.41s/it]                                                        {'loss': 4.4772, 'grad_norm': 25.317970275878906, 'learning_rate': 2.1061757175110024e-06, 'epoch': 0.71}
+ 71%|███████   | 2490/3529 [16:50:10<6:45:20, 23.41s/it] 71%|███████   | 2491/3529 [16:50:33<6:44:16, 23.37s/it] 71%|███████   | 2492/3529 [16:50:55<6:39:13, 23.10s/it] 71%|███████   | 2493/3529 [16:51:18<6:37:31, 23.02s/it] 71%|███████   | 2494/3529 [16:52:04<8:32:48, 29.73s/it] 71%|███████   | 2495/3529 [16:52:26<7:54:41, 27.55s/it] 71%|███████   | 2496/3529 [16:52:48<7:27:16, 25.98s/it] 71%|███████   | 2497/3529 [16:53:10<7:02:47, 24.58s/it] 71%|███████   | 2498/3529 [16:53:31<6:46:32, 23.66s/it] 71%|███████   | 2499/3529 [16:53:55<6:46:32, 23.68s/it] 71%|███████   | 2500/3529 [16:54:18<6:40:32, 23.36s/it]                                                        {'loss': 4.2296, 'grad_norm': 30.881681442260742, 'learning_rate': 2.0688755170152e-06, 'epoch': 0.71}
+ 71%|███████   | 2500/3529 [16:54:18<6:40:32, 23.36s/it] 71%|███████   | 2501/3529 [16:54:39<6:30:34, 22.80s/it] 71%|███████   | 2502/3529 [16:55:01<6:27:57, 22.67s/it] 71%|███████   | 2503/3529 [16:55:24<6:26:57, 22.63s/it] 71%|███████   | 2504/3529 [16:55:48<6:31:16, 22.90s/it] 71%|███████   | 2505/3529 [16:56:09<6:23:26, 22.47s/it] 71%|███████   | 2506/3529 [16:56:32<6:27:27, 22.73s/it] 71%|███████   | 2507/3529 [16:56:53<6:15:11, 22.03s/it] 71%|███████   | 2508/3529 [16:57:15<6:18:15, 22.23s/it] 71%|███████   | 2509/3529 [16:57:36<6:10:01, 21.77s/it] 71%|███████   | 2510/3529 [16:58:01<6:25:50, 22.72s/it]                                                        {'loss': 5.0405, 'grad_norm': 23.95901107788086, 'learning_rate': 2.031822214286134e-06, 'epoch': 0.71}
+ 71%|███████   | 2510/3529 [16:58:01<6:25:50, 22.72s/it] 71%|███████   | 2511/3529 [16:58:22<6:16:02, 22.16s/it] 71%|███████   | 2512/3529 [16:58:43<6:12:24, 21.97s/it] 71%|███████   | 2513/3529 [16:59:06<6:14:24, 22.11s/it] 71%|███████   | 2514/3529 [16:59:29<6:19:03, 22.41s/it] 71%|███████▏  | 2515/3529 [16:59:49<6:08:48, 21.82s/it] 71%|███████▏  | 2516/3529 [17:00:14<6:21:05, 22.57s/it] 71%|███████▏  | 2517/3529 [17:00:33<6:05:37, 21.68s/it] 71%|███████▏  | 2518/3529 [17:00:52<5:49:48, 20.76s/it] 71%|███████▏  | 2519/3529 [17:01:12<5:44:11, 20.45s/it] 71%|███████▏  | 2520/3529 [17:01:32<5:45:30, 20.55s/it]                                                        {'loss': 6.3358, 'grad_norm': 41.624210357666016, 'learning_rate': 1.9950189304391855e-06, 'epoch': 0.71}
+ 71%|███████▏  | 2520/3529 [17:01:32<5:45:30, 20.55s/it] 71%|███████▏  | 2521/3529 [17:01:51<5:36:46, 20.05s/it] 71%|███████▏  | 2522/3529 [17:02:11<5:33:49, 19.89s/it] 71%|███████▏  | 2523/3529 [17:02:32<5:38:32, 20.19s/it] 72%|███████▏  | 2524/3529 [17:02:57<6:02:24, 21.64s/it] 72%|███████▏  | 2525/3529 [17:03:19<6:07:18, 21.95s/it] 72%|███████▏  | 2526/3529 [17:03:42<6:09:37, 22.11s/it] 72%|███████▏  | 2527/3529 [17:04:04<6:10:08, 22.16s/it] 72%|███████▏  | 2528/3529 [17:04:27<6:14:51, 22.47s/it] 72%|███████▏  | 2529/3529 [17:04:50<6:12:53, 22.37s/it] 72%|███████▏  | 2530/3529 [17:05:12<6:14:05, 22.47s/it]                                                        {'loss': 5.061, 'grad_norm': 34.76797866821289, 'learning_rate': 1.958468765529853e-06, 'epoch': 0.72}
+ 72%|███████▏  | 2530/3529 [17:05:12<6:14:05, 22.47s/it] 72%|███████▏  | 2531/3529 [17:05:33<6:06:25, 22.03s/it] 72%|███████▏  | 2532/3529 [17:05:55<6:02:19, 21.81s/it] 72%|███████▏  | 2533/3529 [17:06:18<6:08:05, 22.17s/it] 72%|███████▏  | 2534/3529 [17:06:40<6:08:06, 22.20s/it] 72%|███████▏  | 2535/3529 [17:07:02<6:05:03, 22.04s/it] 72%|███████▏  | 2536/3529 [17:07:22<5:57:52, 21.62s/it] 72%|███████▏  | 2537/3529 [17:07:45<6:02:11, 21.91s/it] 72%|███████▏  | 2538/3529 [17:08:07<6:03:56, 22.04s/it] 72%|███████▏  | 2539/3529 [17:08:30<6:07:51, 22.29s/it] 72%|███████▏  | 2540/3529 [17:08:52<6:08:38, 22.36s/it]                                                        {'loss': 5.1701, 'grad_norm': 20.406444549560547, 'learning_rate': 1.9221747982926493e-06, 'epoch': 0.72}
+ 72%|███████▏  | 2540/3529 [17:08:52<6:08:38, 22.36s/it] 72%|███████▏  | 2541/3529 [17:09:15<6:09:28, 22.44s/it] 72%|███████▏  | 2542/3529 [17:09:40<6:19:50, 23.09s/it] 72%|███████▏  | 2543/3529 [17:10:02<6:15:26, 22.85s/it] 72%|███████▏  | 2544/3529 [17:10:25<6:13:56, 22.78s/it] 72%|███████▏  | 2545/3529 [17:10:47<6:12:47, 22.73s/it] 72%|███████▏  | 2546/3529 [17:11:10<6:11:38, 22.68s/it] 72%|███████▏  | 2547/3529 [17:11:32<6:10:52, 22.66s/it] 72%|███████▏  | 2548/3529 [17:11:56<6:15:55, 22.99s/it] 72%|███████▏  | 2549/3529 [17:12:17<6:06:22, 22.43s/it] 72%|███████▏  | 2550/3529 [17:12:38<5:58:26, 21.97s/it]                                                        {'loss': 4.2621, 'grad_norm': 24.22311782836914, 'learning_rate': 1.8861400858817508e-06, 'epoch': 0.72}
+ 72%|███████▏  | 2550/3529 [17:12:38<5:58:26, 21.97s/it] 72%|███████▏  | 2551/3529 [17:12:59<5:53:33, 21.69s/it] 72%|███████▏  | 2552/3529 [17:13:21<5:55:37, 21.84s/it] 72%|███████▏  | 2553/3529 [17:13:42<5:48:01, 21.40s/it] 72%|███████▏  | 2554/3529 [17:14:03<5:45:48, 21.28s/it] 72%|███████▏  | 2555/3529 [17:14:24<5:45:55, 21.31s/it] 72%|███████▏  | 2556/3529 [17:14:47<5:54:17, 21.85s/it] 72%|███████▏  | 2557/3529 [17:15:10<5:57:15, 22.05s/it] 72%|███████▏  | 2558/3529 [17:15:33<6:00:57, 22.30s/it] 73%|███████▎  | 2559/3529 [17:15:54<5:57:08, 22.09s/it] 73%|███████▎  | 2560/3529 [17:16:14<5:46:25, 21.45s/it]                                                        {'loss': 6.1661, 'grad_norm': 37.65345001220703, 'learning_rate': 1.8503676636134882e-06, 'epoch': 0.73}
+ 73%|███████▎  | 2560/3529 [17:16:14<5:46:25, 21.45s/it] 73%|███████▎  | 2561/3529 [17:16:35<5:42:58, 21.26s/it] 73%|███████▎  | 2562/3529 [17:16:57<5:47:25, 21.56s/it] 73%|███████▎  | 2563/3529 [17:17:18<5:45:12, 21.44s/it] 73%|███████▎  | 2564/3529 [17:17:41<5:49:59, 21.76s/it] 73%|███████▎  | 2565/3529 [17:18:04<5:55:39, 22.14s/it] 73%|███████▎  | 2566/3529 [17:18:27<5:57:42, 22.29s/it] 73%|███████▎  | 2567/3529 [17:18:49<5:58:40, 22.37s/it] 73%|███████▎  | 2568/3529 [17:19:12<5:59:48, 22.47s/it] 73%|███████▎  | 2569/3529 [17:19:34<5:59:19, 22.46s/it] 73%|███████▎  | 2570/3529 [17:20:00<6:13:40, 23.38s/it]                                                        {'loss': 5.3045, 'grad_norm': 20.813777923583984, 'learning_rate': 1.81486054471068e-06, 'epoch': 0.73}
+ 73%|███████▎  | 2570/3529 [17:20:00<6:13:40, 23.38s/it] 73%|███████▎  | 2571/3529 [17:20:23<6:09:52, 23.17s/it] 73%|███████▎  | 2572/3529 [17:20:45<6:05:03, 22.89s/it] 73%|███████▎  | 2573/3529 [17:21:04<5:45:20, 21.67s/it] 73%|███████▎  | 2574/3529 [17:21:25<5:43:19, 21.57s/it] 73%|███████▎  | 2575/3529 [17:21:49<5:56:53, 22.45s/it] 73%|███████▎  | 2576/3529 [17:22:12<5:55:55, 22.41s/it] 73%|███████▎  | 2577/3529 [17:22:33<5:48:52, 21.99s/it] 73%|███████▎  | 2578/3529 [17:22:54<5:44:25, 21.73s/it] 73%|███████▎  | 2579/3529 [17:23:15<5:41:42, 21.58s/it] 73%|███████▎  | 2580/3529 [17:23:36<5:40:08, 21.51s/it]                                                        {'loss': 6.4348, 'grad_norm': 39.82976150512695, 'learning_rate': 1.7796217200488114e-06, 'epoch': 0.73}
+ 73%|███████▎  | 2580/3529 [17:23:36<5:40:08, 21.51s/it] 73%|███████▎  | 2581/3529 [17:24:01<5:53:28, 22.37s/it] 73%|███████▎  | 2582/3529 [17:24:24<5:55:01, 22.49s/it] 73%|███████▎  | 2583/3529 [17:24:46<5:55:27, 22.54s/it] 73%|███████▎  | 2584/3529 [17:25:09<5:55:07, 22.55s/it] 73%|███████▎  | 2585/3529 [17:25:31<5:54:39, 22.54s/it] 73%|███████▎  | 2586/3529 [17:25:54<5:54:23, 22.55s/it] 73%|███████▎  | 2587/3529 [17:26:17<5:54:22, 22.57s/it] 73%|███████▎  | 2588/3529 [17:26:37<5:45:36, 22.04s/it] 73%|███████▎  | 2589/3529 [17:26:59<5:41:36, 21.81s/it] 73%|███████▎  | 2590/3529 [17:27:20<5:38:28, 21.63s/it]                                                        {'loss': 4.2349, 'grad_norm': 25.495925903320312, 'learning_rate': 1.7446541579041048e-06, 'epoch': 0.73}
+ 73%|███████▎  | 2590/3529 [17:27:20<5:38:28, 21.63s/it] 73%|███████▎  | 2591/3529 [17:27:41<5:35:39, 21.47s/it] 73%|███████▎  | 2592/3529 [17:28:06<5:51:28, 22.51s/it] 73%|███████▎  | 2593/3529 [17:28:28<5:50:45, 22.49s/it] 74%|███████▎  | 2594/3529 [17:28:53<6:01:47, 23.22s/it] 74%|███████▎  | 2595/3529 [17:29:16<5:57:21, 22.96s/it] 74%|███████▎  | 2596/3529 [17:29:38<5:53:42, 22.75s/it] 74%|███████▎  | 2597/3529 [17:30:02<6:01:50, 23.29s/it] 74%|███████▎  | 2598/3529 [17:30:25<5:57:07, 23.02s/it] 74%|███████▎  | 2599/3529 [17:30:46<5:47:49, 22.44s/it] 74%|███████▎  | 2600/3529 [17:31:06<5:35:24, 21.66s/it]                                                        {'loss': 5.2485, 'grad_norm': 38.05914306640625, 'learning_rate': 1.7099608037034953e-06, 'epoch': 0.74}
+ 74%|███████▎  | 2600/3529 [17:31:06<5:35:24, 21.66s/it] 74%|███████▎  | 2601/3529 [17:31:27<5:32:00, 21.47s/it] 74%|███████▎  | 2602/3529 [17:31:49<5:35:48, 21.74s/it] 74%|███████▍  | 2603/3529 [17:32:12<5:39:29, 22.00s/it] 74%|███████▍  | 2604/3529 [17:32:37<5:55:09, 23.04s/it] 74%|███████▍  | 2605/3529 [17:33:00<5:55:35, 23.09s/it] 74%|███████▍  | 2606/3529 [17:33:23<5:52:52, 22.94s/it] 74%|███████▍  | 2607/3529 [17:33:46<5:51:49, 22.90s/it] 74%|███████▍  | 2608/3529 [17:34:09<5:52:53, 22.99s/it] 74%|███████▍  | 2609/3529 [17:34:34<6:00:06, 23.49s/it] 74%|███████▍  | 2610/3529 [17:34:56<5:56:23, 23.27s/it]                                                        {'loss': 4.263, 'grad_norm': 22.876413345336914, 'learning_rate': 1.6755445797765286e-06, 'epoch': 0.74}
+ 74%|███████▍  | 2610/3529 [17:34:56<5:56:23, 23.27s/it] 74%|███████▍  | 2611/3529 [17:35:19<5:52:53, 23.06s/it] 74%|███████▍  | 2612/3529 [17:35:42<5:51:55, 23.03s/it] 74%|███████▍  | 2613/3529 [17:36:02<5:38:22, 22.16s/it] 74%|███████▍  | 2614/3529 [17:36:25<5:39:52, 22.29s/it] 74%|███████▍  | 2615/3529 [17:36:44<5:25:45, 21.38s/it] 74%|███████▍  | 2616/3529 [17:37:05<5:25:13, 21.37s/it] 74%|███████▍  | 2617/3529 [17:37:28<5:31:00, 21.78s/it] 74%|███████▍  | 2618/3529 [17:37:50<5:33:59, 22.00s/it] 74%|███████▍  | 2619/3529 [17:38:13<5:36:32, 22.19s/it] 74%|███████▍  | 2620/3529 [17:38:38<5:49:26, 23.07s/it]                                                        {'loss': 4.3153, 'grad_norm': 22.402753829956055, 'learning_rate': 1.6414083851091973e-06, 'epoch': 0.74}
+ 74%|███████▍  | 2620/3529 [17:38:38<5:49:26, 23.07s/it] 74%|███████▍  | 2621/3529 [17:39:00<5:44:34, 22.77s/it] 74%|███████▍  | 2622/3529 [17:39:19<5:27:08, 21.64s/it] 74%|███████▍  | 2623/3529 [17:39:40<5:22:58, 21.39s/it] 74%|███████▍  | 2624/3529 [17:40:03<5:28:49, 21.80s/it] 74%|███████▍  | 2625/3529 [17:40:25<5:31:31, 22.00s/it] 74%|███████▍  | 2626/3529 [17:40:48<5:34:25, 22.22s/it] 74%|███████▍  | 2627/3529 [17:41:08<5:25:10, 21.63s/it] 74%|███████▍  | 2628/3529 [17:41:31<5:29:10, 21.92s/it] 74%|███████▍  | 2629/3529 [17:41:53<5:31:29, 22.10s/it] 75%|███████▍  | 2630/3529 [17:42:16<5:32:18, 22.18s/it]                                                        {'loss': 4.4095, 'grad_norm': 20.86781883239746, 'learning_rate': 1.6075550950997592e-06, 'epoch': 0.75}
+ 75%|███████▍  | 2630/3529 [17:42:16<5:32:18, 22.18s/it] 75%|███████▍  | 2631/3529 [17:42:38<5:34:00, 22.32s/it] 75%|███████▍  | 2632/3529 [17:43:03<5:45:05, 23.08s/it] 75%|███████▍  | 2633/3529 [17:43:26<5:44:20, 23.06s/it] 75%|███████▍  | 2634/3529 [17:43:49<5:41:15, 22.88s/it] 75%|███████▍  | 2635/3529 [17:44:13<5:48:44, 23.41s/it] 75%|███████▍  | 2636/3529 [17:44:40<6:02:04, 24.33s/it] 75%|███████▍  | 2637/3529 [17:45:04<6:00:32, 24.25s/it] 75%|███████▍  | 2638/3529 [17:45:23<5:38:54, 22.82s/it] 75%|███████▍  | 2639/3529 [17:45:43<5:25:51, 21.97s/it] 75%|███████▍  | 2640/3529 [17:46:04<5:21:27, 21.70s/it]                                                        {'loss': 6.2356, 'grad_norm': 39.51744842529297, 'learning_rate': 1.5739875613165283e-06, 'epoch': 0.75}
+ 75%|███████▍  | 2640/3529 [17:46:04<5:21:27, 21.70s/it] 75%|███████▍  | 2641/3529 [17:46:27<5:23:27, 21.86s/it] 75%|███████▍  | 2642/3529 [17:46:47<5:15:44, 21.36s/it] 75%|███████▍  | 2643/3529 [17:47:09<5:20:32, 21.71s/it] 75%|███████▍  | 2644/3529 [17:47:30<5:13:05, 21.23s/it] 75%|███████▍  | 2645/3529 [17:47:51<5:11:40, 21.15s/it] 75%|███████▍  | 2646/3529 [17:48:12<5:12:04, 21.21s/it] 75%|███████▌  | 2647/3529 [17:48:34<5:17:04, 21.57s/it] 75%|███████▌  | 2648/3529 [17:48:55<5:13:01, 21.32s/it] 75%|███████▌  | 2649/3529 [17:49:18<5:21:13, 21.90s/it] 75%|███████▌  | 2650/3529 [17:49:40<5:18:04, 21.71s/it]                                                        {'loss': 4.1033, 'grad_norm': 26.651187896728516, 'learning_rate': 1.5407086112576813e-06, 'epoch': 0.75}
+ 75%|███████▌  | 2650/3529 [17:49:40<5:18:04, 21.71s/it] 75%|███████▌  | 2651/3529 [17:50:01<5:15:14, 21.54s/it] 75%|███████▌  | 2652/3529 [17:50:22<5:13:31, 21.45s/it] 75%|███████▌  | 2653/3529 [17:50:43<5:12:19, 21.39s/it] 75%|███████▌  | 2654/3529 [17:51:04<5:10:17, 21.28s/it] 75%|███████▌  | 2655/3529 [17:51:25<5:10:05, 21.29s/it] 75%|███████▌  | 2656/3529 [17:51:46<5:08:34, 21.21s/it] 75%|███████▌  | 2657/3529 [17:52:07<5:05:10, 21.00s/it] 75%|███████▌  | 2658/3529 [17:52:30<5:12:50, 21.55s/it] 75%|███████▌  | 2659/3529 [17:52:51<5:09:21, 21.34s/it] 75%|███████▌  | 2660/3529 [17:53:10<5:01:15, 20.80s/it]                                                        {'loss': 8.1815, 'grad_norm': 46.947757720947266, 'learning_rate': 1.5077210481130815e-06, 'epoch': 0.75}
+ 75%|███████▌  | 2660/3529 [17:53:10<5:01:15, 20.80s/it] 75%|███████▌  | 2661/3529 [17:53:32<5:03:22, 20.97s/it] 75%|███████▌  | 2662/3529 [17:54:00<5:34:43, 23.16s/it] 75%|███████▌  | 2663/3529 [17:54:19<5:16:19, 21.92s/it] 75%|███████▌  | 2664/3529 [17:54:40<5:13:21, 21.74s/it] 76%|███████▌  | 2665/3529 [17:55:02<5:14:33, 21.84s/it] 76%|███████▌  | 2666/3529 [17:55:25<5:17:23, 22.07s/it] 76%|███████▌  | 2667/3529 [17:55:47<5:19:17, 22.22s/it] 76%|███████▌  | 2668/3529 [17:56:08<5:10:07, 21.61s/it] 76%|███████▌  | 2669/3529 [17:56:29<5:10:25, 21.66s/it] 76%|███████▌  | 2670/3529 [17:56:50<5:05:19, 21.33s/it]                                                        {'loss': 6.1637, 'grad_norm': 41.29295349121094, 'learning_rate': 1.475027650528168e-06, 'epoch': 0.76}
+ 76%|███████▌  | 2670/3529 [17:56:50<5:05:19, 21.33s/it] 76%|███████▌  | 2671/3529 [17:57:12<5:08:48, 21.59s/it] 76%|███████▌  | 2672/3529 [17:57:32<5:02:36, 21.19s/it] 76%|███████▌  | 2673/3529 [17:57:54<5:02:33, 21.21s/it] 76%|███████▌  | 2674/3529 [17:58:14<4:57:00, 20.84s/it] 76%|███████▌  | 2675/3529 [17:58:36<5:05:04, 21.43s/it] 76%|███████▌  | 2676/3529 [17:58:58<5:05:00, 21.45s/it] 76%|███████▌  | 2677/3529 [17:59:19<5:00:39, 21.17s/it] 76%|███████▌  | 2678/3529 [17:59:39<4:57:16, 20.96s/it] 76%|███████▌  | 2679/3529 [18:00:02<5:05:18, 21.55s/it] 76%|███████▌  | 2680/3529 [18:00:23<5:00:55, 21.27s/it]                                                        {'loss': 7.1273, 'grad_norm': 39.40729522705078, 'learning_rate': 1.442631172369896e-06, 'epoch': 0.76}
+ 76%|███████▌  | 2680/3529 [18:00:23<5:00:55, 21.27s/it] 76%|███████▌  | 2681/3529 [18:00:45<5:06:06, 21.66s/it] 76%|███████▌  | 2682/3529 [18:01:08<5:10:01, 21.96s/it] 76%|███████▌  | 2683/3529 [18:01:30<5:12:24, 22.16s/it] 76%|███████▌  | 2684/3529 [18:01:50<5:02:46, 21.50s/it] 76%|███████▌  | 2685/3529 [18:02:13<5:06:35, 21.80s/it] 76%|███████▌  | 2686/3529 [18:02:34<5:03:40, 21.61s/it] 76%|███████▌  | 2687/3529 [18:02:55<5:01:00, 21.45s/it] 76%|███████▌  | 2688/3529 [18:03:17<5:03:57, 21.69s/it] 76%|███████▌  | 2689/3529 [18:03:39<5:03:32, 21.68s/it] 76%|███████▌  | 2690/3529 [18:04:00<5:01:27, 21.56s/it]                                                        {'loss': 5.187, 'grad_norm': 39.58256912231445, 'learning_rate': 1.4105343424947654e-06, 'epoch': 0.76}
+ 76%|███████▌  | 2690/3529 [18:04:00<5:01:27, 21.56s/it] 76%|███████▋  | 2691/3529 [18:04:23<5:05:23, 21.87s/it] 76%|███████▋  | 2692/3529 [18:04:45<5:08:23, 22.11s/it] 76%|███████▋  | 2693/3529 [18:05:10<5:19:38, 22.94s/it] 76%|███████▋  | 2694/3529 [18:05:33<5:18:38, 22.90s/it] 76%|███████▋  | 2695/3529 [18:05:56<5:17:09, 22.82s/it] 76%|███████▋  | 2696/3529 [18:06:18<5:15:21, 22.72s/it] 76%|███████▋  | 2697/3529 [18:06:41<5:13:53, 22.64s/it] 76%|███████▋  | 2698/3529 [18:07:03<5:13:11, 22.61s/it] 76%|███████▋  | 2699/3529 [18:07:25<5:07:06, 22.20s/it] 77%|███████▋  | 2700/3529 [18:07:46<5:02:00, 21.86s/it]                                                        {'loss': 3.8889, 'grad_norm': 39.836185455322266, 'learning_rate': 1.378739864518971e-06, 'epoch': 0.76}
+ 77%|███████▋  | 2700/3529 [18:07:46<5:02:00, 21.86s/it] 77%|███████▋  | 2701/3529 [18:08:11<5:15:05, 22.83s/it] 77%|███████▋  | 2702/3529 [18:08:33<5:12:24, 22.67s/it] 77%|███████▋  | 2703/3529 [18:08:53<4:59:26, 21.75s/it] 77%|███████▋  | 2704/3529 [18:09:14<4:56:45, 21.58s/it] 77%|███████▋  | 2705/3529 [18:09:35<4:53:39, 21.38s/it] 77%|███████▋  | 2706/3529 [18:09:57<4:58:19, 21.75s/it] 77%|███████▋  | 2707/3529 [18:10:20<5:01:26, 22.00s/it] 77%|███████▋  | 2708/3529 [18:10:42<5:03:24, 22.17s/it] 77%|███████▋  | 2709/3529 [18:11:04<4:58:44, 21.86s/it] 77%|███████▋  | 2710/3529 [18:11:25<4:57:15, 21.78s/it]                                                        {'loss': 5.3001, 'grad_norm': 40.20053482055664, 'learning_rate': 1.3472504165906614e-06, 'epoch': 0.77}
+ 77%|███████▋  | 2710/3529 [18:11:25<4:57:15, 21.78s/it] 77%|███████▋  | 2711/3529 [18:11:50<5:10:11, 22.75s/it] 77%|███████▋  | 2712/3529 [18:12:13<5:08:51, 22.68s/it] 77%|███████▋  | 2713/3529 [18:12:35<5:07:44, 22.63s/it] 77%|███████▋  | 2714/3529 [18:12:56<5:01:23, 22.19s/it] 77%|███████▋  | 2715/3529 [18:13:18<4:57:20, 21.92s/it] 77%|███████▋  | 2716/3529 [18:13:40<4:58:57, 22.06s/it] 77%|███████▋  | 2717/3529 [18:14:00<4:48:40, 21.33s/it] 77%|███████▋  | 2718/3529 [18:14:22<4:51:52, 21.59s/it] 77%|███████▋  | 2719/3529 [18:14:44<4:54:33, 21.82s/it] 77%|███████▋  | 2720/3529 [18:15:05<4:51:09, 21.59s/it]                                                        {'loss': 4.0238, 'grad_norm': 23.571002960205078, 'learning_rate': 1.3160686511643505e-06, 'epoch': 0.77}
+ 77%|███████▋  | 2720/3529 [18:15:05<4:51:09, 21.59s/it] 77%|███████▋  | 2721/3529 [18:15:26<4:46:49, 21.30s/it] 77%|███████▋  | 2722/3529 [18:15:48<4:51:10, 21.65s/it] 77%|███████▋  | 2723/3529 [18:16:11<4:53:35, 21.85s/it] 77%|███████▋  | 2724/3529 [18:16:31<4:47:12, 21.41s/it] 77%|███████▋  | 2725/3529 [18:16:55<4:58:37, 22.29s/it] 77%|███████▋  | 2726/3529 [18:17:18<4:59:12, 22.36s/it] 77%|███████▋  | 2727/3529 [18:17:41<5:02:57, 22.67s/it] 77%|███████▋  | 2728/3529 [18:18:03<4:57:27, 22.28s/it] 77%|███████▋  | 2729/3529 [18:18:24<4:52:30, 21.94s/it] 77%|███████▋  | 2730/3529 [18:18:48<5:02:06, 22.69s/it]                                                        {'loss': 5.1091, 'grad_norm': 23.623443603515625, 'learning_rate': 1.2851971947774987e-06, 'epoch': 0.77}
+ 77%|███████▋  | 2730/3529 [18:18:48<5:02:06, 22.69s/it] 77%|███████▋  | 2731/3529 [18:19:11<5:01:00, 22.63s/it] 77%|███████▋  | 2732/3529 [18:19:37<5:14:04, 23.64s/it] 77%|███████▋  | 2733/3529 [18:20:00<5:13:34, 23.64s/it] 77%|███████▋  | 2734/3529 [18:20:26<5:19:03, 24.08s/it] 78%|███████▊  | 2735/3529 [18:20:47<5:06:59, 23.20s/it] 78%|███████▊  | 2736/3529 [18:21:08<4:57:39, 22.52s/it] 78%|███████▊  | 2737/3529 [18:21:30<4:57:01, 22.50s/it] 78%|███████▊  | 2738/3529 [18:21:55<5:04:26, 23.09s/it] 78%|███████▊  | 2739/3529 [18:22:17<5:02:33, 22.98s/it] 78%|███████▊  | 2740/3529 [18:22:41<5:03:35, 23.09s/it]                                                        {'loss': 4.1048, 'grad_norm': 31.367658615112305, 'learning_rate': 1.2546386478292604e-06, 'epoch': 0.78}
+ 78%|███████▊  | 2740/3529 [18:22:41<5:03:35, 23.09s/it] 78%|███████▊  | 2741/3529 [18:23:03<5:00:18, 22.87s/it] 78%|███████▊  | 2742/3529 [18:23:25<4:57:33, 22.69s/it] 78%|███████▊  | 2743/3529 [18:23:48<4:58:41, 22.80s/it] 78%|███████▊  | 2744/3529 [18:24:10<4:52:16, 22.34s/it] 78%|███████▊  | 2745/3529 [18:24:31<4:47:09, 21.98s/it] 78%|███████▊  | 2746/3529 [18:24:55<4:54:22, 22.56s/it] 78%|███████▊  | 2747/3529 [18:25:17<4:52:51, 22.47s/it] 78%|███████▊  | 2748/3529 [18:25:41<4:59:18, 22.99s/it] 78%|███████▊  | 2749/3529 [18:26:08<5:15:43, 24.29s/it] 78%|███████▊  | 2750/3529 [18:26:30<5:03:33, 23.38s/it]                                                        {'loss': 4.271, 'grad_norm': 39.296226501464844, 'learning_rate': 1.2243955843614558e-06, 'epoch': 0.78}
+ 78%|███████▊  | 2750/3529 [18:26:30<5:03:33, 23.38s/it] 78%|███████▊  | 2751/3529 [18:26:54<5:08:16, 23.77s/it] 78%|███████▊  | 2752/3529 [18:27:13<4:48:55, 22.31s/it] 78%|███████▊  | 2753/3529 [18:27:34<4:43:35, 21.93s/it] 78%|███████▊  | 2754/3529 [18:27:56<4:44:04, 21.99s/it] 78%|███████▊  | 2755/3529 [18:28:19<4:45:35, 22.14s/it] 78%|███████▊  | 2756/3529 [18:28:44<4:56:22, 23.00s/it] 78%|███████▊  | 2757/3529 [18:29:09<5:03:11, 23.56s/it] 78%|███████▊  | 2758/3529 [18:29:31<4:57:23, 23.14s/it] 78%|███████▊  | 2759/3529 [18:29:53<4:53:12, 22.85s/it] 78%|███████▊  | 2760/3529 [18:30:13<4:42:35, 22.05s/it]                                                        {'loss': 4.0739, 'grad_norm': 28.69118881225586, 'learning_rate': 1.1944705518417466e-06, 'epoch': 0.78}
+ 78%|███████▊  | 2760/3529 [18:30:13<4:42:35, 22.05s/it] 78%|███████▊  | 2761/3529 [18:30:32<4:30:47, 21.16s/it] 78%|███████▊  | 2762/3529 [18:30:54<4:30:49, 21.19s/it] 78%|███████▊  | 2763/3529 [18:31:18<4:42:00, 22.09s/it] 78%|███████▊  | 2764/3529 [18:31:46<5:03:12, 23.78s/it] 78%|███████▊  | 2765/3529 [18:32:09<5:00:50, 23.63s/it] 78%|███████▊  | 2766/3529 [18:32:35<5:09:24, 24.33s/it] 78%|███████▊  | 2767/3529 [18:33:04<5:26:05, 25.68s/it] 78%|███████▊  | 2768/3529 [18:33:28<5:20:39, 25.28s/it] 78%|███████▊  | 2769/3529 [18:34:01<5:48:26, 27.51s/it] 78%|███████▊  | 2770/3529 [18:34:23<5:29:09, 26.02s/it]                                                        {'loss': 5.1998, 'grad_norm': 32.27414321899414, 'learning_rate': 1.1648660709490538e-06, 'epoch': 0.78}
+ 78%|███████▊  | 2770/3529 [18:34:23<5:29:09, 26.02s/it] 79%|███████▊  | 2771/3529 [18:34:46<5:18:04, 25.18s/it] 79%|███████▊  | 2772/3529 [18:35:08<5:04:50, 24.16s/it] 79%|███████▊  | 2773/3529 [18:35:36<5:19:19, 25.34s/it] 79%|███████▊  | 2774/3529 [18:36:05<5:31:50, 26.37s/it] 79%|███████▊  | 2775/3529 [18:36:26<5:09:46, 24.65s/it] 79%|███████▊  | 2776/3529 [18:36:52<5:14:08, 25.03s/it] 79%|███████▊  | 2777/3529 [18:37:15<5:08:00, 24.58s/it] 79%|███████▊  | 2778/3529 [18:37:36<4:55:18, 23.59s/it] 79%|███████▊  | 2779/3529 [18:38:04<5:08:30, 24.68s/it] 79%|███████▉  | 2780/3529 [18:38:27<5:02:36, 24.24s/it]                                                        {'loss': 4.9601, 'grad_norm': 24.473217010498047, 'learning_rate': 1.135584635361232e-06, 'epoch': 0.79}
+ 79%|███████▉  | 2780/3529 [18:38:27<5:02:36, 24.24s/it] 79%|███████▉  | 2781/3529 [18:38:50<4:57:24, 23.86s/it] 79%|███████▉  | 2782/3529 [18:39:10<4:43:49, 22.80s/it] 79%|███████▉  | 2783/3529 [18:39:40<5:09:36, 24.90s/it] 79%|███████▉  | 2784/3529 [18:40:10<5:28:51, 26.49s/it] 79%|███████▉  | 2785/3529 [18:40:33<5:15:07, 25.41s/it] 79%|███████▉  | 2786/3529 [18:40:58<5:13:31, 25.32s/it] 79%|███████▉  | 2787/3529 [18:41:17<4:49:13, 23.39s/it] 79%|███████▉  | 2788/3529 [18:41:44<5:00:39, 24.35s/it] 79%|███████▉  | 2789/3529 [18:42:05<4:48:29, 23.39s/it] 79%|███████▉  | 2790/3529 [18:42:30<4:53:13, 23.81s/it]                                                        {'loss': 4.9381, 'grad_norm': 27.856367111206055, 'learning_rate': 1.1066287115450242e-06, 'epoch': 0.79}
+ 79%|███████▉  | 2790/3529 [18:42:30<4:53:13, 23.81s/it] 79%|███████▉  | 2791/3529 [18:42:57<5:07:24, 24.99s/it] 79%|███████▉  | 2792/3529 [18:43:19<4:52:56, 23.85s/it] 79%|███████▉  | 2793/3529 [18:43:42<4:49:52, 23.63s/it] 79%|███████▉  | 2794/3529 [18:44:06<4:52:42, 23.90s/it] 79%|███████▉  | 2795/3529 [18:44:33<5:04:35, 24.90s/it] 79%|███████▉  | 2796/3529 [18:45:01<5:12:50, 25.61s/it] 79%|███████▉  | 2797/3529 [18:45:23<5:00:29, 24.63s/it] 79%|███████▉  | 2798/3529 [18:45:46<4:54:43, 24.19s/it] 79%|███████▉  | 2799/3529 [18:46:12<4:59:57, 24.65s/it] 79%|███████▉  | 2800/3529 [18:46:37<5:00:45, 24.75s/it]                                                        {'loss': 4.2145, 'grad_norm': 17.640838623046875, 'learning_rate': 1.0780007385483005e-06, 'epoch': 0.79}
+ 79%|███████▉  | 2800/3529 [18:46:37<5:00:45, 24.75s/it] 79%|███████��  | 2801/3529 [18:46:59<4:50:40, 23.96s/it] 79%|███████▉  | 2802/3529 [18:47:20<4:40:06, 23.12s/it] 79%|███████▉  | 2803/3529 [18:47:48<4:57:06, 24.55s/it] 79%|███████▉  | 2804/3529 [18:48:09<4:45:12, 23.60s/it] 79%|███████▉  | 2805/3529 [18:48:29<4:31:18, 22.48s/it] 80%|███████▉  | 2806/3529 [18:48:52<4:31:32, 22.53s/it] 80%|███████▉  | 2807/3529 [18:49:19<4:48:29, 23.97s/it] 80%|███████▉  | 2808/3529 [18:49:40<4:37:43, 23.11s/it] 80%|███████▉  | 2809/3529 [18:50:13<5:11:30, 25.96s/it] 80%|███████▉  | 2810/3529 [18:50:40<5:13:14, 26.14s/it]                                                        {'loss': 8.3028, 'grad_norm': 34.375091552734375, 'learning_rate': 1.0497031277946062e-06, 'epoch': 0.8}
+ 80%|███████▉  | 2810/3529 [18:50:40<5:13:14, 26.14s/it] 80%|███████▉  | 2811/3529 [18:51:00<4:50:50, 24.30s/it] 80%|███████▉  | 2812/3529 [18:51:21<4:39:28, 23.39s/it] 80%|███████▉  | 2813/3529 [18:51:45<4:43:28, 23.75s/it] 80%|███████▉  | 2814/3529 [18:52:07<4:35:48, 23.15s/it] 80%|███████▉  | 2815/3529 [18:52:30<4:34:46, 23.09s/it] 80%|███████▉  | 2816/3529 [18:52:59<4:53:55, 24.73s/it] 80%|███████▉  | 2817/3529 [18:53:21<4:45:57, 24.10s/it] 80%|███████▉  | 2818/3529 [18:53:44<4:39:25, 23.58s/it] 80%|███████▉  | 2819/3529 [18:54:13<4:58:18, 25.21s/it] 80%|███████▉  | 2820/3529 [18:54:35<4:48:36, 24.42s/it]                                                        {'loss': 6.9337, 'grad_norm': 23.346403121948242, 'learning_rate': 1.0217382628800465e-06, 'epoch': 0.8}
+ 80%|███████▉  | 2820/3529 [18:54:35<4:48:36, 24.42s/it] 80%|███████▉  | 2821/3529 [18:54:59<4:45:30, 24.19s/it] 80%|███████▉  | 2822/3529 [18:55:24<4:46:41, 24.33s/it] 80%|███████▉  | 2823/3529 [18:55:46<4:39:49, 23.78s/it] 80%|████████  | 2824/3529 [18:56:08<4:33:43, 23.30s/it] 80%|████████  | 2825/3529 [18:56:32<4:33:41, 23.33s/it] 80%|████████  | 2826/3529 [18:56:52<4:21:30, 22.32s/it] 80%|████████  | 2827/3529 [18:57:11<4:12:23, 21.57s/it] 80%|████████  | 2828/3529 [18:57:36<4:22:55, 22.50s/it] 80%|████████  | 2829/3529 [18:57:59<4:22:44, 22.52s/it] 80%|████████  | 2830/3529 [18:58:23<4:27:42, 22.98s/it]                                                        {'loss': 3.1855, 'grad_norm': 25.259016036987305, 'learning_rate': 9.94108499372507e-07, 'epoch': 0.8}
+ 80%|████████  | 2830/3529 [18:58:23<4:27:42, 22.98s/it] 80%|████████  | 2831/3529 [18:58:46<4:28:36, 23.09s/it] 80%|████████  | 2832/3529 [18:59:09<4:26:25, 22.94s/it] 80%|████████  | 2833/3529 [18:59:30<4:20:25, 22.45s/it] 80%|████████  | 2834/3529 [18:59:50<4:11:27, 21.71s/it] 80%|████████  | 2835/3529 [19:00:10<4:04:52, 21.17s/it] 80%|████████  | 2836/3529 [19:00:30<4:00:46, 20.85s/it] 80%|████████  | 2837/3529 [19:00:55<4:16:35, 22.25s/it] 80%|████████  | 2838/3529 [19:01:18<4:17:08, 22.33s/it] 80%|████████  | 2839/3529 [19:01:41<4:18:25, 22.47s/it] 80%|████████  | 2840/3529 [19:02:04<4:19:13, 22.57s/it]                                                        {'loss': 5.2408, 'grad_norm': 33.022727966308594, 'learning_rate': 9.668161646132296e-07, 'epoch': 0.8}
+ 80%|████████  | 2840/3529 [19:02:04<4:19:13, 22.57s/it] 81%|████████  | 2841/3529 [19:02:24<4:11:33, 21.94s/it] 81%|████████  | 2842/3529 [19:02:47<4:13:57, 22.18s/it] 81%|████████  | 2843/3529 [19:03:10<4:15:35, 22.36s/it] 81%|████████  | 2844/3529 [19:03:32<4:15:58, 22.42s/it] 81%|████████  | 2845/3529 [19:03:54<4:13:19, 22.22s/it] 81%|████████  | 2846/3529 [19:04:17<4:15:06, 22.41s/it] 81%|████████  | 2847/3529 [19:04:39<4:15:47, 22.50s/it] 81%|████████  | 2848/3529 [19:05:05<4:26:48, 23.51s/it] 81%|████████  | 2849/3529 [19:05:30<4:30:37, 23.88s/it] 81%|████████  | 2850/3529 [19:05:50<4:17:23, 22.74s/it]                                                        {'loss': 3.1828, 'grad_norm': 30.2951717376709, 'learning_rate': 9.398635575207854e-07, 'epoch': 0.81}
+ 81%|████████  | 2850/3529 [19:05:50<4:17:23, 22.74s/it] 81%|████████  | 2851/3529 [19:06:11<4:09:39, 22.09s/it] 81%|████████  | 2852/3529 [19:06:32<4:05:54, 21.79s/it] 81%|████████  | 2853/3529 [19:06:53<4:03:18, 21.60s/it] 81%|████████  | 2854/3529 [19:07:14<4:00:57, 21.42s/it] 81%|████████  | 2855/3529 [19:07:35<3:59:41, 21.34s/it] 81%|████████  | 2856/3529 [19:08:00<4:11:27, 22.42s/it] 81%|████████  | 2857/3529 [19:08:20<4:03:40, 21.76s/it] 81%|████████  | 2858/3529 [19:08:46<4:15:43, 22.87s/it] 81%|████████  | 2859/3529 [19:09:08<4:12:57, 22.65s/it] 81%|████████  | 2860/3529 [19:09:31<4:15:19, 22.90s/it]                                                        {'loss': 5.0485, 'grad_norm': 51.273616790771484, 'learning_rate': 9.132529483974217e-07, 'epoch': 0.81}
+ 81%|████████  | 2860/3529 [19:09:31<4:15:19, 22.90s/it] 81%|████████  | 2861/3529 [19:09:53<4:10:57, 22.54s/it] 81%|████████  | 2862/3529 [19:10:14<4:04:22, 21.98s/it] 81%|████████  | 2863/3529 [19:10:39<4:13:18, 22.82s/it] 81%|████████  | 2864/3529 [19:11:02<4:13:40, 22.89s/it] 81%|████████  | 2865/3529 [19:11:24<4:11:33, 22.73s/it] 81%|████████  | 2866/3529 [19:11:46<4:10:06, 22.63s/it] 81%|████████  | 2867/3529 [19:12:07<4:03:03, 22.03s/it] 81%|████████▏ | 2868/3529 [19:12:28<4:00:01, 21.79s/it] 81%|████████▏ | 2869/3529 [19:12:47<3:49:48, 20.89s/it] 81%|████████▏ | 2870/3529 [19:13:08<3:49:51, 20.93s/it]                                                        {'loss': 6.3068, 'grad_norm': 39.878597259521484, 'learning_rate': 8.869865787378262e-07, 'epoch': 0.81}
+ 81%|████████▏ | 2870/3529 [19:13:08<3:49:51, 20.93s/it] 81%|████████▏ | 2871/3529 [19:13:31<3:55:19, 21.46s/it] 81%|████████▏ | 2872/3529 [19:13:52<3:54:42, 21.43s/it] 81%|████████▏ | 2873/3529 [19:14:16<4:03:02, 22.23s/it] 81%|████████▏ | 2874/3529 [19:14:39<4:03:53, 22.34s/it] 81%|████████▏ | 2875/3529 [19:15:02<4:06:21, 22.60s/it] 81%|████████▏ | 2876/3529 [19:15:27<4:14:13, 23.36s/it] 82%|████████▏ | 2877/3529 [19:15:49<4:08:06, 22.83s/it] 82%|████████▏ | 2878/3529 [19:16:12<4:08:12, 22.88s/it] 82%|████████▏ | 2879/3529 [19:16:34<4:07:11, 22.82s/it] 82%|████████▏ | 2880/3529 [19:16:56<4:04:06, 22.57s/it]                                                        {'loss': 3.3587, 'grad_norm': 21.064966201782227, 'learning_rate': 8.61066661040324e-07, 'epoch': 0.82}
+ 82%|████████▏ | 2880/3529 [19:16:56<4:04:06, 22.57s/it] 82%|████████▏ | 2881/3529 [19:17:19<4:04:00, 22.59s/it] 82%|████████▏ | 2882/3529 [19:17:40<3:59:57, 22.25s/it] 82%|████████▏ | 2883/3529 [19:18:04<4:04:22, 22.70s/it] 82%|████████▏ | 2884/3529 [19:18:25<3:56:23, 21.99s/it] 82%|████████▏ | 2885/3529 [19:18:49<4:04:14, 22.76s/it] 82%|████████▏ | 2886/3529 [19:19:13<4:06:59, 23.05s/it] 82%|████████▏ | 2887/3529 [19:19:35<4:04:34, 22.86s/it] 82%|████████▏ | 2888/3529 [19:19:57<4:02:12, 22.67s/it] 82%|████████▏ | 2889/3529 [19:20:21<4:04:03, 22.88s/it] 82%|████████▏ | 2890/3529 [19:20:46<4:10:11, 23.49s/it]                                                        {'loss': 4.242, 'grad_norm': 22.18380355834961, 'learning_rate': 8.354953786205133e-07, 'epoch': 0.82}
+ 82%|████████▏ | 2890/3529 [19:20:46<4:10:11, 23.49s/it] 82%|████████▏ | 2891/3529 [19:21:08<4:05:49, 23.12s/it] 82%|████████▏ | 2892/3529 [19:21:37<4:24:40, 24.93s/it] 82%|████████▏ | 2893/3529 [19:22:01<4:19:51, 24.51s/it] 82%|████████▏ | 2894/3529 [19:22:25<4:19:34, 24.53s/it] 82%|████████▏ | 2895/3529 [19:22:52<4:26:21, 25.21s/it] 82%|████████▏ | 2896/3529 [19:23:17<4:25:12, 25.14s/it] 82%|████████▏ | 2897/3529 [19:23:37<4:08:59, 23.64s/it] 82%|████████▏ | 2898/3529 [19:23:57<3:57:40, 22.60s/it] 82%|████████▏ | 2899/3529 [19:24:19<3:53:21, 22.22s/it] 82%|████████▏ | 2900/3529 [19:24:43<3:59:45, 22.87s/it]                                                        {'loss': 4.1017, 'grad_norm': 41.24013137817383, 'learning_rate': 8.102748854273468e-07, 'epoch': 0.82}
+ 82%|████████▏ | 2900/3529 [19:24:43<3:59:45, 22.87s/it] 82%|████████▏ | 2901/3529 [19:25:05<3:57:55, 22.73s/it] 82%|████████▏ | 2902/3529 [19:25:24<3:45:34, 21.59s/it] 82%|████████▏ | 2903/3529 [19:25:49<3:53:34, 22.39s/it] 82%|████████▏ | 2904/3529 [19:26:14<4:02:39, 23.29s/it] 82%|████████▏ | 2905/3529 [19:26:37<4:02:16, 23.30s/it] 82%|████████▏ | 2906/3529 [19:26:57<3:50:50, 22.23s/it] 82%|████████▏ | 2907/3529 [19:27:18<3:46:10, 21.82s/it] 82%|████████▏ | 2908/3529 [19:27:39<3:44:09, 21.66s/it] 82%|████████▏ | 2909/3529 [19:28:03<3:50:55, 22.35s/it] 82%|████████▏ | 2910/3529 [19:28:28<3:57:54, 23.06s/it]                                                        {'loss': 5.3308, 'grad_norm': 23.30076789855957, 'learning_rate': 7.854073058617112e-07, 'epoch': 0.82}
+ 82%|████████▏ | 2910/3529 [19:28:28<3:57:54, 23.06s/it] 82%|████████▏ | 2911/3529 [19:28:48<3:47:27, 22.08s/it] 83%|████████▎ | 2912/3529 [19:29:09<3:44:39, 21.85s/it] 83%|████████▎ | 2913/3529 [19:29:30<3:41:47, 21.60s/it] 83%|████████▎ | 2914/3529 [19:29:54<3:47:52, 22.23s/it] 83%|████████▎ | 2915/3529 [19:30:19<3:55:18, 22.99s/it] 83%|████████▎ | 2916/3529 [19:30:40<3:48:58, 22.41s/it] 83%|████████▎ | 2917/3529 [19:31:01<3:44:30, 22.01s/it] 83%|████████▎ | 2918/3529 [19:31:22<3:42:22, 21.84s/it] 83%|████████▎ | 2919/3529 [19:31:43<3:39:39, 21.61s/it] 83%|████████▎ | 2920/3529 [19:32:07<3:45:38, 22.23s/it]                                                        {'loss': 8.113, 'grad_norm': 21.42025375366211, 'learning_rate': 7.60894734597476e-07, 'epoch': 0.83}
+ 83%|████████▎ | 2920/3529 [19:32:07<3:45:38, 22.23s/it] 83%|████████▎ | 2921/3529 [19:32:33<3:56:12, 23.31s/it] 83%|████████▎ | 2922/3529 [19:32:54<3:49:01, 22.64s/it] 83%|████████▎ | 2923/3529 [19:33:14<3:39:57, 21.78s/it] 83%|████████▎ | 2924/3529 [19:33:35<3:38:57, 21.71s/it] 83%|████████▎ | 2925/3529 [19:33:55<3:33:29, 21.21s/it] 83%|████████▎ | 2926/3529 [19:34:15<3:29:53, 20.88s/it] 83%|████████▎ | 2927/3529 [19:34:38<3:34:37, 21.39s/it] 83%|████████▎ | 2928/3529 [19:35:05<3:51:00, 23.06s/it] 83%|████████▎ | 2929/3529 [19:35:27<3:48:07, 22.81s/it] 83%|████████▎ | 2930/3529 [19:35:46<3:35:37, 21.60s/it]                                                        {'loss': 5.1848, 'grad_norm': 18.741073608398438, 'learning_rate': 7.367392364050485e-07, 'epoch': 0.83}
+ 83%|████████▎ | 2930/3529 [19:35:46<3:35:37, 21.60s/it] 83%|████████▎ | 2931/3529 [19:36:06<3:31:38, 21.23s/it] 83%|████████▎ | 2932/3529 [19:36:27<3:31:02, 21.21s/it] 83%|████████▎ | 2933/3529 [19:36:48<3:30:07, 21.15s/it] 83%|████████▎ | 2934/3529 [19:37:11<3:35:04, 21.69s/it] 83%|████████▎ | 2935/3529 [19:37:35<3:39:50, 22.21s/it] 83%|████████▎ | 2936/3529 [19:37:55<3:32:40, 21.52s/it] 83%|████████▎ | 2937/3529 [19:38:18<3:37:58, 22.09s/it] 83%|████████▎ | 2938/3529 [19:38:43<3:45:02, 22.85s/it] 83%|████████▎ | 2939/3529 [19:39:09<3:55:36, 23.96s/it] 83%|████████▎ | 2940/3529 [19:39:32<3:51:38, 23.60s/it]                                                        {'loss': 7.1581, 'grad_norm': 23.857194900512695, 'learning_rate': 7.129428459774618e-07, 'epoch': 0.83}
+ 83%|████████▎ | 2940/3529 [19:39:32<3:51:38, 23.60s/it] 83%|████████▎ | 2941/3529 [19:39:53<3:44:54, 22.95s/it] 83%|████████▎ | 2942/3529 [19:40:14<3:38:46, 22.36s/it] 83%|████████▎ | 2943/3529 [19:40:35<3:34:13, 21.93s/it] 83%|████████▎ | 2944/3529 [19:40:56<3:30:53, 21.63s/it] 83%|████████▎ | 2945/3529 [19:41:17<3:29:18, 21.50s/it] 83%|████████▎ | 2946/3529 [19:41:40<3:33:30, 21.97s/it] 84%|████████▎ | 2947/3529 [19:42:06<3:43:46, 23.07s/it] 84%|████████▎ | 2948/3529 [19:42:29<3:42:07, 22.94s/it] 84%|████████▎ | 2949/3529 [19:42:54<3:48:26, 23.63s/it] 84%|████████▎ | 2950/3529 [19:43:17<3:47:00, 23.52s/it]                                                        {'loss': 6.2661, 'grad_norm': 28.530094146728516, 'learning_rate': 6.895075677589791e-07, 'epoch': 0.84}
+ 84%|████████▎ | 2950/3529 [19:43:17<3:47:00, 23.52s/it] 84%|████████▎ | 2951/3529 [19:43:41<3:48:13, 23.69s/it] 84%|████████▎ | 2952/3529 [19:44:04<3:44:13, 23.32s/it] 84%|████████▎ | 2953/3529 [19:44:28<3:45:37, 23.50s/it] 84%|████████▎ | 2954/3529 [19:44:54<3:54:21, 24.46s/it] 84%|████████▎ | 2955/3529 [19:45:18<3:51:27, 24.19s/it] 84%|████████▍ | 2956/3529 [19:45:43<3:54:00, 24.50s/it] 84%|████████▍ | 2957/3529 [19:46:08<3:54:50, 24.63s/it] 84%|████████▍ | 2958/3529 [19:46:35<4:00:25, 25.26s/it] 84%|████████▍ | 2959/3529 [19:46:58<3:55:12, 24.76s/it] 84%|████████▍ | 2960/3529 [19:47:19<3:43:26, 23.56s/it]                                                        {'loss': 4.2647, 'grad_norm': 40.354949951171875, 'learning_rate': 6.664353757762515e-07, 'epoch': 0.84}
+ 84%|████████▍ | 2960/3529 [19:47:19<3:43:26, 23.56s/it] 84%|████████▍ | 2961/3529 [19:47:42<3:41:32, 23.40s/it] 84%|████████▍ | 2962/3529 [19:48:04<3:35:37, 22.82s/it] 84%|████████▍ | 2963/3529 [19:48:26<3:34:41, 22.76s/it] 84%|████████▍ | 2964/3529 [19:48:55<3:50:40, 24.50s/it] 84%|████████▍ | 2965/3529 [19:49:17<3:43:48, 23.81s/it] 84%|████████▍ | 2966/3529 [19:49:38<3:36:18, 23.05s/it] 84%|████████▍ | 2967/3529 [19:49:59<3:30:15, 22.45s/it] 84%|████████▍ | 2968/3529 [19:50:22<3:30:36, 22.52s/it] 84%|████████▍ | 2969/3529 [19:50:46<3:34:29, 22.98s/it] 84%|████████▍ | 2970/3529 [19:51:08<3:29:46, 22.52s/it]                                                        {'loss': 4.9122, 'grad_norm': 21.305288314819336, 'learning_rate': 6.437282134720479e-07, 'epoch': 0.84}
+ 84%|████████▍ | 2970/3529 [19:51:08<3:29:46, 22.52s/it] 84%|████████▍ | 2971/3529 [19:51:27<3:21:48, 21.70s/it] 84%|████████▍ | 2972/3529 [19:51:52<3:29:16, 22.54s/it] 84%|████████▍ | 2973/3529 [19:52:15<3:29:15, 22.58s/it] 84%|████████▍ | 2974/3529 [19:52:39<3:34:08, 23.15s/it] 84%|████████▍ | 2975/3529 [19:53:03<3:36:04, 23.40s/it] 84%|████████▍ | 2976/3529 [19:53:26<3:33:17, 23.14s/it] 84%|████████▍ | 2977/3529 [19:53:47<3:28:44, 22.69s/it] 84%|████████▍ | 2978/3529 [19:54:12<3:33:43, 23.27s/it] 84%|████████▍ | 2979/3529 [19:54:31<3:21:09, 21.94s/it] 84%|████████▍ | 2980/3529 [19:54:52<3:17:41, 21.61s/it]                                                        {'loss': 6.2095, 'grad_norm': 40.32603454589844, 'learning_rate': 6.21387993541544e-07, 'epoch': 0.84}
+ 84%|████████▍ | 2980/3529 [19:54:52<3:17:41, 21.61s/it] 84%|████████▍ | 2981/3529 [19:55:17<3:27:42, 22.74s/it] 84%|████████▍ | 2982/3529 [19:55:41<3:30:44, 23.12s/it] 85%|████████▍ | 2983/3529 [19:56:06<3:35:19, 23.66s/it] 85%|████████▍ | 2984/3529 [19:56:30<3:35:37, 23.74s/it] 85%|████████▍ | 2985/3529 [19:56:54<3:36:53, 23.92s/it] 85%|████████▍ | 2986/3529 [19:57:18<3:35:13, 23.78s/it] 85%|████████▍ | 2987/3529 [19:57:42<3:36:58, 24.02s/it] 85%|████████▍ | 2988/3529 [19:58:05<3:32:09, 23.53s/it] 85%|████████▍ | 2989/3529 [19:58:22<3:16:33, 21.84s/it] 85%|████████▍ | 2990/3529 [19:58:43<3:12:55, 21.48s/it]                                                        {'loss': 4.1365, 'grad_norm': 39.293067932128906, 'learning_rate': 5.994165977712175e-07, 'epoch': 0.85}
+ 85%|████████▍ | 2990/3529 [19:58:43<3:12:55, 21.48s/it] 85%|████████▍ | 2991/3529 [19:59:10<3:27:39, 23.16s/it] 85%|████████▍ | 2992/3529 [19:59:33<3:26:06, 23.03s/it] 85%|████████▍ | 2993/3529 [20:00:00<3:37:12, 24.31s/it] 85%|████████▍ | 2994/3529 [20:00:24<3:34:58, 24.11s/it] 85%|████████▍ | 2995/3529 [20:00:46<3:30:37, 23.67s/it] 85%|████████▍ | 2996/3529 [20:01:07<3:20:51, 22.61s/it] 85%|████████▍ | 2997/3529 [20:01:29<3:21:10, 22.69s/it] 85%|████████▍ | 2998/3529 [20:01:53<3:24:00, 23.05s/it] 85%|████████▍ | 2999/3529 [20:02:16<3:22:24, 22.91s/it] 85%|████████▌ | 3000/3529 [20:02:39<3:21:18, 22.83s/it]                                                        {'loss': 3.4504, 'grad_norm': 25.006118774414062, 'learning_rate': 5.778158768803294e-07, 'epoch': 0.85}
+ 85%|████████▌ | 3000/3529 [20:02:39<3:21:18, 22.83s/it]/usr/local/lib/python3.12/dist-packages/torch/distributed/distributed_c10d.py:4814: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
+  warnings.warn(  # warn only once
+/usr/local/lib/python3.12/dist-packages/torch/utils/checkpoint.py:85: UserWarning: None of the inputs have requires_grad=True. Gradients will be None
+  warnings.warn(
+/workspace/src/qwen_vl/model/geometry_encoders/vggt_encoder.py:68: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with torch.cuda.amp.autocast(dtype=dtype):
+ 85%|████████▌ | 3001/3529 [20:03:58<5:49:04, 39.67s/it] 85%|████████▌ | 3002/3529 [20:04:20<5:03:05, 34.51s/it] 85%|████████▌ | 3003/3529 [20:04:43<4:33:23, 31.19s/it] 85%|███��████▌ | 3004/3529 [20:05:04<4:05:28, 28.05s/it] 85%|████████▌ | 3005/3529 [20:05:27<3:50:18, 26.37s/it] 85%|████████▌ | 3006/3529 [20:05:50<3:41:26, 25.40s/it] 85%|████████▌ | 3007/3529 [20:06:13<3:34:15, 24.63s/it] 85%|████████▌ | 3008/3529 [20:06:36<3:29:59, 24.18s/it] 85%|████████▌ | 3009/3529 [20:06:57<3:22:12, 23.33s/it] 85%|████████▌ | 3010/3529 [20:07:18<3:15:42, 22.63s/it]                                                        {'loss': 4.2214, 'grad_norm': 38.37477111816406, 'learning_rate': 5.565876503650442e-07, 'epoch': 0.85}
+ 85%|████████▌ | 3010/3529 [20:07:18<3:15:42, 22.63s/it] 85%|████████▌ | 3011/3529 [20:07:39<3:11:26, 22.18s/it] 85%|████████▌ | 3012/3529 [20:08:00<3:08:47, 21.91s/it] 85%|████████▌ | 3013/3529 [20:08:21<3:04:44, 21.48s/it] 85%|████████▌ | 3014/3529 [20:08:43<3:06:51, 21.77s/it] 85%|████████▌ | 3015/3529 [20:09:08<3:14:07, 22.66s/it] 85%|████████▌ | 3016/3529 [20:09:31<3:14:24, 22.74s/it] 85%|████████▌ | 3017/3529 [20:09:52<3:08:14, 22.06s/it] 86%|████████▌ | 3018/3529 [20:10:14<3:09:27, 22.25s/it] 86%|████████▌ | 3019/3529 [20:10:37<3:11:43, 22.56s/it] 86%|████████▌ | 3020/3529 [20:11:01<3:13:04, 22.76s/it]                                                        {'loss': 5.1103, 'grad_norm': 40.921207427978516, 'learning_rate': 5.357337063451601e-07, 'epoch': 0.86}
+ 86%|████████▌ | 3020/3529 [20:11:01<3:13:04, 22.76s/it] 86%|████████▌ | 3021/3529 [20:11:24<3:14:02, 22.92s/it] 86%|████████▌ | 3022/3529 [20:13:08<6:40:03, 47.34s/it] 86%|████████▌ | 3023/3529 [20:13:32<5:38:55, 40.19s/it] 86%|████████▌ | 3024/3529 [20:13:56<4:56:35, 35.24s/it] 86%|████████▌ | 3025/3529 [20:14:17<4:20:37, 31.03s/it] 86%|████████▌ | 3026/3529 [20:14:36<3:51:36, 27.63s/it] 86%|████████▌ | 3027/3529 [20:14:58<3:36:15, 25.85s/it] 86%|████████▌ | 3028/3529 [20:15:20<3:26:51, 24.77s/it] 86%|████████▌ | 3029/3529 [20:15:41<3:16:23, 23.57s/it] 86%|████████▌ | 3030/3529 [20:16:00<3:04:12, 22.15s/it]                                                        {'loss': 5.9913, 'grad_norm': 26.225017547607422, 'learning_rate': 5.152558014134906e-07, 'epoch': 0.86}
+ 86%|████████▌ | 3030/3529 [20:16:00<3:04:12, 22.15s/it] 86%|████████▌ | 3031/3529 [20:16:21<3:01:54, 21.92s/it] 86%|████████▌ | 3032/3529 [20:16:43<3:02:01, 21.97s/it] 86%|████████▌ | 3033/3529 [20:17:06<3:03:46, 22.23s/it] 86%|████████▌ | 3034/3529 [20:17:29<3:05:20, 22.47s/it] 86%|████████▌ | 3035/3529 [20:17:52<3:05:16, 22.50s/it] 86%|████████▌ | 3036/3529 [20:18:15<3:05:16, 22.55s/it] 86%|████████▌ | 3037/3529 [20:18:38<3:05:57, 22.68s/it] 86%|████████▌ | 3038/3529 [20:19:00<3:05:20, 22.65s/it] 86%|████████▌ | 3039/3529 [20:19:23<3:04:53, 22.64s/it] 86%|████████▌ | 3040/3529 [20:19:46<3:04:56, 22.69s/it]                                                        {'loss': 4.3731, 'grad_norm': 22.678930282592773, 'learning_rate': 4.951556604879049e-07, 'epoch': 0.86}
+ 86%|████████▌ | 3040/3529 [20:19:46<3:04:56, 22.69s/it] 86%|████████▌ | 3041/3529 [20:20:08<3:04:16, 22.66s/it] 86%|████████▌ | 3042/3529 [20:20:31<3:03:27, 22.60s/it] 86%|████████▌ | 3043/3529 [20:20:53<3:03:28, 22.65s/it] 86%|████████▋ | 3044/3529 [20:21:14<2:59:01, 22.15s/it] 86%|████████▋ | 3045/3529 [20:21:36<2:57:02, 21.95s/it] 86%|████████▋ | 3046/3529 [20:21:59<2:58:54, 22.22s/it] 86%|████████▋ | 3047/3529 [20:22:22<3:00:24, 22.46s/it] 86%|████████▋ | 3048/3529 [20:22:44<3:00:23, 22.50s/it] 86%|████████▋ | 3049/3529 [20:23:07<3:00:17, 22.54s/it] 86%|████████▋ | 3050/3529 [20:23:30<3:02:16, 22.83s/it]                                                        {'loss': 4.2301, 'grad_norm': 29.937393188476562, 'learning_rate': 4.754349766660299e-07, 'epoch': 0.86}
+ 86%|████████▋ | 3050/3529 [20:23:30<3:02:16, 22.83s/it] 86%|████████▋ | 3051/3529 [20:23:52<2:58:07, 22.36s/it] 86%|████████▋ | 3052/3529 [20:25:47<6:39:52, 50.30s/it] 87%|████████▋ | 3053/3529 [20:26:09<5:30:28, 41.66s/it] 87%|████████▋ | 3054/3529 [20:26:35<4:54:32, 37.21s/it] 87%|████████▋ | 3055/3529 [20:26:59<4:21:24, 33.09s/it] 87%|████████▋ | 3056/3529 [20:27:20<3:52:44, 29.52s/it] 87%|████████▋ | 3057/3529 [20:27:43<3:35:50, 27.44s/it] 87%|████████▋ | 3058/3529 [20:28:14<3:43:53, 28.52s/it] 87%|████████▋ | 3059/3529 [20:28:34<3:24:48, 26.14s/it] 87%|████████▋ | 3060/3529 [20:28:57<3:15:35, 25.02s/it]                                                        {'loss': 6.0091, 'grad_norm': 26.465091705322266, 'learning_rate': 4.5609541108263377e-07, 'epoch': 0.87}
+ 87%|████████▋ | 3060/3529 [20:28:57<3:15:35, 25.02s/it] 87%|████████▋ | 3061/3529 [20:29:16<3:01:17, 23.24s/it] 87%|████████▋ | 3062/3529 [20:29:36<2:52:58, 22.22s/it] 87%|████████▋ | 3063/3529 [20:29:57<2:50:28, 21.95s/it] 87%|████████▋ | 3064/3529 [20:30:21<2:55:27, 22.64s/it] 87%|████████▋ | 3065/3529 [20:30:44<2:56:19, 22.80s/it] 87%|████████▋ | 3066/3529 [20:31:05<2:49:38, 21.98s/it] 87%|████████▋ | 3067/3529 [20:31:42<3:25:12, 26.65s/it] 87%|████████▋ | 3068/3529 [20:32:22<3:56:06, 30.73s/it] 87%|████████▋ | 3069/3529 [20:32:56<4:03:15, 31.73s/it] 87%|████████▋ | 3070/3529 [20:33:17<3:36:52, 28.35s/it]                                                        {'loss': 6.979, 'grad_norm': 25.58681297302246, 'learning_rate': 4.3713859276971026e-07, 'epoch': 0.87}
+ 87%|████████▋ | 3070/3529 [20:33:17<3:36:52, 28.35s/it] 87%|████████▋ | 3071/3529 [20:33:37<3:18:22, 25.99s/it] 87%|████████▋ | 3072/3529 [20:33:56<3:01:31, 23.83s/it] 87%|████████▋ | 3073/3529 [20:34:18<2:55:46, 23.13s/it] 87%|████████▋ | 3074/3529 [20:34:39<2:51:04, 22.56s/it] 87%|████████▋ | 3075/3529 [20:35:00<2:46:46, 22.04s/it] 87%|████████▋ | 3076/3529 [20:35:23<2:50:21, 22.56s/it] 87%|████████▋ | 3077/3529 [20:35:47<2:51:14, 22.73s/it] 87%|████████▋ | 3078/3529 [20:36:21<3:17:22, 26.26s/it] 87%|████████▋ | 3079/3529 [20:36:43<3:08:14, 25.10s/it] 87%|████████▋ | 3080/3529 [20:37:07<3:03:57, 24.58s/it]                                                        {'loss': 5.0316, 'grad_norm': 22.564706802368164, 'learning_rate': 4.1856611851925245e-07, 'epoch': 0.87}
+ 87%|████████▋ | 3080/3529 [20:37:07<3:03:57, 24.58s/it] 87%|████████▋ | 3081/3529 [20:37:27<2:52:49, 23.15s/it] 87%|████████▋ | 3082/3529 [20:37:48<2:48:39, 22.64s/it] 87%|████████▋ | 3083/3529 [20:38:09<2:45:02, 22.20s/it] 87%|████████▋ | 3084/3529 [20:38:29<2:38:43, 21.40s/it] 87%|████████▋ | 3085/3529 [20:38:55<2:48:54, 22.83s/it] 87%|████████▋ | 3086/3529 [20:39:18<2:48:59, 22.89s/it] 87%|████████▋ | 3087/3529 [20:39:39<2:43:39, 22.22s/it] 88%|████████▊ | 3088/3529 [20:40:00<2:40:51, 21.89s/it] 88%|████████▊ | 3089/3529 [20:40:20<2:36:13, 21.30s/it] 88%|████████▊ | 3090/3529 [20:40:41<2:36:51, 21.44s/it]                                                        {'loss': 8.964, 'grad_norm': 40.97758102416992, 'learning_rate': 4.003795527487508e-07, 'epoch': 0.88}
+ 88%|████████▊ | 3090/3529 [20:40:41<2:36:51, 21.44s/it] 88%|████████▊ | 3091/3529 [20:41:07<2:44:35, 22.55s/it] 88%|████████▊ | 3092/3529 [20:41:29<2:42:56, 22.37s/it] 88%|████████▊ | 3093/3529 [20:41:57<2:55:18, 24.12s/it] 88%|████████▊ | 3094/3529 [20:42:19<2:50:50, 23.56s/it] 88%|████████▊ | 3095/3529 [20:42:42<2:48:32, 23.30s/it] 88%|████████▊ | 3096/3529 [20:43:05<2:47:49, 23.26s/it] 88%|████████▊ | 3097/3529 [20:43:26<2:43:21, 22.69s/it] 88%|████████▊ | 3098/3529 [20:43:51<2:47:08, 23.27s/it] 88%|████████▊ | 3099/3529 [20:44:13<2:45:13, 23.05s/it] 88%|████████▊ | 3100/3529 [20:44:36<2:44:31, 23.01s/it]                                                        {'loss': 3.1517, 'grad_norm': 32.80113220214844, 'learning_rate': 3.8258042736942446e-07, 'epoch': 0.88}
+ 88%|████████▊ | 3100/3529 [20:44:36<2:44:31, 23.01s/it] 88%|████████▊ | 3101/3529 [20:44:55<2:35:09, 21.75s/it] 88%|████████▊ | 3102/3529 [20:45:16<2:32:57, 21.49s/it] 88%|████████▊ | 3103/3529 [20:45:39<2:34:50, 21.81s/it] 88%|████████▊ | 3104/3529 [20:46:08<2:50:01, 24.00s/it] 88%|████████▊ | 3105/3529 [20:46:31<2:47:10, 23.66s/it] 88%|████████▊ | 3106/3529 [20:46:53<2:45:06, 23.42s/it] 88%|████████▊ | 3107/3529 [20:47:16<2:42:39, 23.13s/it] 88%|████████▊ | 3108/3529 [20:47:39<2:41:24, 23.00s/it] 88%|████████▊ | 3109/3529 [20:48:05<2:47:20, 23.91s/it] 88%|████████▊ | 3110/3529 [20:48:29<2:48:29, 24.13s/it]                                                        {'loss': 4.345, 'grad_norm': 30.950176239013672, 'learning_rate': 3.651702416571762e-07, 'epoch': 0.88}
+ 88%|████████▊ | 3110/3529 [20:48:29<2:48:29, 24.13s/it] 88%|████████▊ | 3111/3529 [20:48:48<2:37:53, 22.66s/it] 88%|████████▊ | 3112/3529 [20:49:09<2:33:20, 22.06s/it] 88%|████████▊ | 3113/3529 [20:49:30<2:31:02, 21.78s/it] 88%|████████▊ | 3114/3529 [20:49:50<2:27:02, 21.26s/it] 88%|████████▊ | 3115/3529 [20:50:11<2:25:32, 21.09s/it] 88%|████████▊ | 3116/3529 [20:50:32<2:24:02, 20.93s/it] 88%|████████▊ | 3117/3529 [20:50:56<2:31:13, 22.02s/it] 88%|████████▊ | 3118/3529 [20:51:21<2:36:15, 22.81s/it] 88%|████████▊ | 3119/3529 [20:51:43<2:35:00, 22.68s/it] 88%|████████▊ | 3120/3529 [20:52:04<2:30:53, 22.14s/it]                                                        {'loss': 6.1642, 'grad_norm': 21.242090225219727, 'learning_rate': 3.481504621263049e-07, 'epoch': 0.88}
+ 88%|████████▊ | 3120/3529 [20:52:04<2:30:53, 22.14s/it] 88%|████████▊ | 3121/3529 [20:52:26<2:30:21, 22.11s/it] 88%|████████▊ | 3122/3529 [20:52:48<2:30:30, 22.19s/it] 88%|████████▊ | 3123/3529 [20:53:11<2:30:35, 22.26s/it] 89%|████████▊ | 3124/3529 [20:53:38<2:39:11, 23.58s/it] 89%|████████▊ | 3125/3529 [20:53:59<2:33:53, 22.86s/it] 89%|████████▊ | 3126/3529 [20:54:19<2:29:21, 22.24s/it] 89%|████████▊ | 3127/3529 [20:54:42<2:29:40, 22.34s/it] 89%|████████▊ | 3128/3529 [20:55:04<2:29:26, 22.36s/it] 89%|████████▊ | 3129/3529 [20:55:33<2:40:25, 24.06s/it] 89%|████████▊ | 3130/3529 [20:55:51<2:29:43, 22.52s/it]                                                        {'loss': 5.1734, 'grad_norm': 21.0790958404541, 'learning_rate': 3.315225224059809e-07, 'epoch': 0.89}
+ 89%|████████▊ | 3130/3529 [20:55:51<2:29:43, 22.52s/it] 89%|████████▊ | 3131/3529 [20:56:12<2:26:26, 22.08s/it] 89%|████████▉ | 3132/3529 [20:56:37<2:31:32, 22.90s/it] 89%|████████▉ | 3133/3529 [20:57:00<2:30:27, 22.80s/it] 89%|████████▉ | 3134/3529 [20:57:26<2:36:47, 23.82s/it] 89%|████████▉ | 3135/3529 [20:57:53<2:42:31, 24.75s/it] 89%|████████▉ | 3136/3529 [20:58:19<2:44:21, 25.09s/it] 89%|████████▉ | 3137/3529 [20:58:44<2:44:11, 25.13s/it] 89%|████████▉ | 3138/3529 [20:59:07<2:38:32, 24.33s/it] 89%|████████▉ | 3139/3529 [20:59:26<2:28:16, 22.81s/it] 89%|████████▉ | 3140/3529 [20:59:46<2:22:19, 21.95s/it]                                                        {'loss': 5.0608, 'grad_norm': 41.8050537109375, 'learning_rate': 3.1528782311948226e-07, 'epoch': 0.89}
+ 89%|████████▉ | 3140/3529 [20:59:46<2:22:19, 21.95s/it] 89%|████████▉ | 3141/3529 [21:00:05<2:17:32, 21.27s/it] 89%|████████▉ | 3142/3529 [21:00:28<2:20:07, 21.73s/it] 89%|████████▉ | 3143/3529 [21:00:57<2:33:23, 23.84s/it] 89%|████████▉ | 3144/3529 [21:01:21<2:33:08, 23.87s/it] 89%|████████▉ | 3145/3529 [21:01:44<2:30:37, 23.53s/it] 89%|████████▉ | 3146/3529 [21:02:04<2:24:54, 22.70s/it] 89%|████████▉ | 3147/3529 [21:02:26<2:21:34, 22.24s/it] 89%|████████▉ | 3148/3529 [21:02:51<2:27:17, 23.19s/it] 89%|████████▉ | 3149/3529 [21:03:14<2:25:45, 23.01s/it] 89%|████████▉ | 3150/3529 [21:03:36<2:24:01, 22.80s/it]                                                        {'loss': 5.9961, 'grad_norm': 23.527942657470703, 'learning_rate': 2.9944773176621756e-07, 'epoch': 0.89}
+ 89%|████████▉ | 3150/3529 [21:03:36<2:24:01, 22.80s/it] 89%|████████▉ | 3151/3529 [21:03:59<2:23:27, 22.77s/it] 89%|████████▉ | 3152/3529 [21:04:22<2:23:26, 22.83s/it] 89%|████████▉ | 3153/3529 [21:04:43<2:19:46, 22.30s/it] 89%|████████▉ | 3154/3529 [21:05:08<2:25:38, 23.30s/it] 89%|████████▉ | 3155/3529 [21:05:33<2:27:19, 23.64s/it] 89%|████████▉ | 3156/3529 [21:05:56<2:25:45, 23.45s/it] 89%|████████▉ | 3157/3529 [21:06:21<2:28:11, 23.90s/it] 89%|████████▉ | 3158/3529 [21:06:45<2:29:14, 24.14s/it] 90%|████████▉ | 3159/3529 [21:07:09<2:27:17, 23.89s/it] 90%|████████▉ | 3160/3529 [21:07:31<2:24:55, 23.56s/it]                                                        {'loss': 3.8781, 'grad_norm': 28.754201889038086, 'learning_rate': 2.840035826065368e-07, 'epoch': 0.9}
+ 90%|████████▉ | 3160/3529 [21:07:31<2:24:55, 23.56s/it] 90%|████████▉ | 3161/3529 [21:07:58<2:30:40, 24.57s/it] 90%|████████▉ | 3162/3529 [21:08:23<2:30:51, 24.66s/it] 90%|████████▉ | 3163/3529 [21:08:52<2:38:34, 26.00s/it] 90%|████████▉ | 3164/3529 [21:09:15<2:32:07, 25.01s/it] 90%|████████▉ | 3165/3529 [21:09:41<2:32:40, 25.17s/it] 90%|████████▉ | 3166/3529 [21:10:01<2:24:21, 23.86s/it] 90%|████████▉ | 3167/3529 [21:10:23<2:19:37, 23.14s/it] 90%|████████▉ | 3168/3529 [21:10:47<2:21:45, 23.56s/it] 90%|████████▉ | 3169/3529 [21:11:10<2:19:41, 23.28s/it] 90%|████████▉ | 3170/3529 [21:11:35<2:22:20, 23.79s/it]                                                        {'loss': 4.1426, 'grad_norm': 26.580829620361328, 'learning_rate': 2.689566765493451e-07, 'epoch': 0.9}
+ 90%|████████▉ | 3170/3529 [21:11:35<2:22:20, 23.79s/it] 90%|████████▉ | 3171/3529 [21:12:02<2:26:47, 24.60s/it] 90%|████████▉ | 3172/3529 [21:12:25<2:24:18, 24.25s/it] 90%|████████▉ | 3173/3529 [21:12:46<2:17:22, 23.15s/it] 90%|████████▉ | 3174/3529 [21:13:07<2:13:31, 22.57s/it] 90%|████████▉ | 3175/3529 [21:13:28<2:10:23, 22.10s/it] 90%|████████▉ | 3176/3529 [21:13:53<2:14:57, 22.94s/it] 90%|█████████ | 3177/3529 [21:14:15<2:14:01, 22.84s/it] 90%|█████████ | 3178/3529 [21:14:38<2:13:10, 22.76s/it] 90%|█████████ | 3179/3529 [21:15:03<2:17:28, 23.57s/it] 90%|█████████ | 3180/3529 [21:15:30<2:23:21, 24.65s/it]                                                        {'loss': 4.9139, 'grad_norm': 18.550945281982422, 'learning_rate': 2.5430828104251684e-07, 'epoch': 0.9}
+ 90%|█████████ | 3180/3529 [21:15:30<2:23:21, 24.65s/it] 90%|█████████ | 3181/3529 [21:15:51<2:16:21, 23.51s/it] 90%|█████████ | 3182/3529 [21:16:13<2:13:34, 23.10s/it] 90%|█████████ | 3183/3529 [21:16:39<2:17:02, 23.76s/it] 90%|█████████ | 3184/3529 [21:17:04<2:18:30, 24.09s/it] 90%|█████████ | 3185/3529 [21:17:26<2:15:39, 23.66s/it] 90%|█████████ | 3186/3529 [21:17:49<2:13:26, 23.34s/it] 90%|█████████ | 3187/3529 [21:18:15<2:18:28, 24.29s/it] 90%|█████████ | 3188/3529 [21:18:38<2:14:59, 23.75s/it] 90%|█████████ | 3189/3529 [21:19:01<2:13:53, 23.63s/it] 90%|█████████ | 3190/3529 [21:19:25<2:14:21, 23.78s/it]                                                        {'loss': 3.1654, 'grad_norm': 20.301895141601562, 'learning_rate': 2.4005962996614174e-07, 'epoch': 0.9}
+ 90%|█████████ | 3190/3529 [21:19:25<2:14:21, 23.78s/it] 90%|█████████ | 3191/3529 [21:19:49<2:13:16, 23.66s/it] 90%|█████████ | 3192/3529 [21:20:11<2:10:26, 23.23s/it] 90%|█████████ | 3193/3529 [21:20:34<2:10:23, 23.28s/it] 91%|█████████ | 3194/3529 [21:20:56<2:06:42, 22.69s/it] 91%|█████████ | 3195/3529 [21:21:16<2:03:00, 22.10s/it] 91%|█████████ | 3196/3529 [21:21:40<2:04:57, 22.52s/it] 91%|█████████ | 3197/3529 [21:22:03<2:05:09, 22.62s/it] 91%|█████████ | 3198/3529 [21:22:25<2:04:42, 22.60s/it] 91%|█████████ | 3199/3529 [21:22:46<2:01:52, 22.16s/it] 91%|█████████ | 3200/3529 [21:23:10<2:04:25, 22.69s/it]                                                        {'loss': 5.0736, 'grad_norm': 37.804969787597656, 'learning_rate': 2.2621192352858702e-07, 'epoch': 0.91}
+ 91%|█████████ | 3200/3529 [21:23:10<2:04:25, 22.69s/it] 91%|█████████ | 3201/3529 [21:23:37<2:10:00, 23.78s/it] 91%|█████████ | 3202/3529 [21:24:02<2:12:19, 24.28s/it] 91%|█████████ | 3203/3529 [21:24:24<2:07:09, 23.40s/it] 91%|█████████ | 3204/3529 [21:24:43<2:00:53, 22.32s/it] 91%|█████████ | 3205/3529 [21:25:04<1:58:31, 21.95s/it] 91%|█████████ | 3206/3529 [21:25:30<2:04:26, 23.12s/it] 91%|█████████ | 3207/3529 [21:25:52<2:01:57, 22.73s/it] 91%|█████████ | 3208/3529 [21:26:19<2:08:39, 24.05s/it] 91%|█████████ | 3209/3529 [21:27:01<2:36:04, 29.26s/it] 91%|█████████ | 3210/3529 [21:27:19<2:18:45, 26.10s/it]                                                        {'loss': 5.2175, 'grad_norm': 29.193897247314453, 'learning_rate': 2.1276632816540077e-07, 'epoch': 0.91}
+ 91%|█████████ | 3210/3529 [21:27:19<2:18:45, 26.10s/it] 91%|█████████ | 3211/3529 [21:27:41<2:10:32, 24.63s/it] 91%|█████████ | 3212/3529 [21:28:06<2:11:15, 24.84s/it] 91%|█████████ | 3213/3529 [21:28:31<2:11:42, 25.01s/it] 91%|█████████ | 3214/3529 [21:28:52<2:04:56, 23.80s/it] 91%|█████████ | 3215/3529 [21:29:13<2:00:17, 22.99s/it] 91%|█████████ | 3216/3529 [21:29:41<2:06:54, 24.33s/it] 91%|█████████ | 3217/3529 [21:30:07<2:09:33, 24.91s/it] 91%|█████████ | 3218/3529 [21:30:31<2:07:28, 24.59s/it] 91%|█████████ | 3219/3529 [21:30:54<2:04:50, 24.16s/it] 91%|█████████ | 3220/3529 [21:31:14<1:58:37, 23.03s/it]                                                        {'loss': 5.2508, 'grad_norm': 23.378320693969727, 'learning_rate': 1.9972397644106023e-07, 'epoch': 0.91}
+ 91%|█████████ | 3220/3529 [21:31:14<1:58:37, 23.03s/it] 91%|█████████▏| 3221/3529 [21:31:35<1:54:53, 22.38s/it] 91%|█████████▏| 3222/3529 [21:31:55<1:50:38, 21.62s/it] 91%|█████████▏| 3223/3529 [21:32:21<1:57:25, 23.02s/it] 91%|█████████▏| 3224/3529 [21:32:42<1:53:05, 22.25s/it] 91%|█████████▏| 3225/3529 [21:33:06<1:55:27, 22.79s/it] 91%|█████████▏| 3226/3529 [21:33:31<1:58:07, 23.39s/it] 91%|█████████▏| 3227/3529 [21:33:52<1:53:55, 22.64s/it] 91%|█████████▏| 3228/3529 [21:34:18<1:58:42, 23.66s/it] 91%|█████████▏| 3229/3529 [21:34:42<1:59:14, 23.85s/it] 92%|█████████▏| 3230/3529 [21:35:07<2:00:14, 24.13s/it]                                                        {'loss': 5.2554, 'grad_norm': 18.92923355102539, 'learning_rate': 1.870859669535724e-07, 'epoch': 0.92}
+ 92%|█████████▏| 3230/3529 [21:35:07<2:00:14, 24.13s/it] 92%|█████████▏| 3231/3529 [21:35:28<1:55:42, 23.30s/it] 92%|█████████▏| 3232/3529 [21:36:01<2:10:03, 26.27s/it] 92%|█████████▏| 3233/3529 [21:36:23<2:02:17, 24.79s/it] 92%|█████████▏| 3234/3529 [21:36:45<1:57:49, 23.97s/it] 92%|█████████▏| 3235/3529 [21:37:10<1:59:53, 24.47s/it] 92%|█████████▏| 3236/3529 [21:37:33<1:56:16, 23.81s/it] 92%|█████████▏| 3237/3529 [21:37:56<1:55:09, 23.66s/it] 92%|█████████▏| 3238/3529 [21:38:19<1:54:18, 23.57s/it] 92%|█████████▏| 3239/3529 [21:38:43<1:53:59, 23.59s/it] 92%|█████████▏| 3240/3529 [21:39:08<1:55:33, 23.99s/it]                                                        {'loss': 5.1253, 'grad_norm': 18.03963279724121, 'learning_rate': 1.7485336424193366e-07, 'epoch': 0.92}
+ 92%|█████████▏| 3240/3529 [21:39:08<1:55:33, 23.99s/it] 92%|█████████▏| 3241/3529 [21:39:31<1:54:08, 23.78s/it] 92%|█████████▏| 3242/3529 [21:39:52<1:49:28, 22.89s/it] 92%|█████████▏| 3243/3529 [21:40:15<1:48:59, 22.87s/it] 92%|█████████▏| 3244/3529 [21:40:37<1:48:23, 22.82s/it] 92%|█████████▏| 3245/3529 [21:41:02<1:50:08, 23.27s/it] 92%|█████████▏| 3246/3529 [21:41:25<1:49:07, 23.14s/it] 92%|█████████▏| 3247/3529 [21:41:52<1:54:08, 24.29s/it] 92%|█████████▏| 3248/3529 [21:42:17<1:54:49, 24.52s/it] 92%|█████████▏| 3249/3529 [21:42:38<1:49:58, 23.57s/it] 92%|█████████▏| 3250/3529 [21:42:59<1:46:23, 22.88s/it]                                                        {'loss': 5.0659, 'grad_norm': 38.961456298828125, 'learning_rate': 1.6302719869646432e-07, 'epoch': 0.92}
+ 92%|█████████▏| 3250/3529 [21:42:59<1:46:23, 22.88s/it] 92%|█████████▏| 3251/3529 [21:43:26<1:51:00, 23.96s/it] 92%|█████████▏| 3252/3529 [21:43:46<1:45:18, 22.81s/it] 92%|█████████▏| 3253/3529 [21:44:16<1:54:36, 24.91s/it] 92%|█████████▏| 3254/3529 [21:44:40<1:53:41, 24.81s/it] 92%|█████████▏| 3255/3529 [21:45:06<1:54:05, 24.98s/it] 92%|█████████▏| 3256/3529 [21:45:29<1:51:41, 24.55s/it] 92%|█████████▏| 3257/3529 [21:45:52<1:49:25, 24.14s/it] 92%|█████████▏| 3258/3529 [21:46:18<1:51:22, 24.66s/it] 92%|█████████▏| 3259/3529 [21:46:39<1:45:41, 23.49s/it] 92%|█████████▏| 3260/3529 [21:47:04<1:47:05, 23.89s/it]                                                        {'loss': 4.1776, 'grad_norm': 20.624431610107422, 'learning_rate': 1.5160846647201132e-07, 'epoch': 0.92}
+ 92%|█████████▏| 3260/3529 [21:47:04<1:47:05, 23.89s/it] 92%|█████████▏| 3261/3529 [21:47:28<1:47:04, 23.97s/it] 92%|█████████▏| 3262/3529 [21:47:54<1:49:29, 24.60s/it] 92%|█████████▏| 3263/3529 [21:48:22<1:53:58, 25.71s/it] 92%|█████████▏| 3264/3529 [21:48:45<1:49:17, 24.75s/it] 93%|█████████▎| 3265/3529 [21:49:05<1:42:50, 23.37s/it] 93%|█████████▎| 3266/3529 [21:49:28<1:42:08, 23.30s/it] 93%|█████████▎| 3267/3529 [21:49:55<1:46:04, 24.29s/it] 93%|█████████▎| 3268/3529 [21:50:19<1:45:32, 24.26s/it] 93%|█████████▎| 3269/3529 [21:50:44<1:45:51, 24.43s/it] 93%|█████████▎| 3270/3529 [21:51:05<1:41:22, 23.48s/it]                                                        {'loss': 3.142, 'grad_norm': 21.755279541015625, 'learning_rate': 1.4059812940404093e-07, 'epoch': 0.93}
+ 93%|█████████▎| 3270/3529 [21:51:05<1:41:22, 23.48s/it] 93%|█████████▎| 3271/3529 [21:51:26<1:37:34, 22.69s/it] 93%|█████████▎| 3272/3529 [21:51:49<1:38:19, 22.95s/it] 93%|█████████▎| 3273/3529 [21:52:12<1:37:19, 22.81s/it] 93%|█████████▎| 3274/3529 [21:52:39<1:42:08, 24.03s/it] 93%|█████████▎| 3275/3529 [21:53:02<1:40:46, 23.81s/it] 93%|█████████▎| 3276/3529 [21:53:25<1:38:58, 23.47s/it] 93%|█████████▎| 3277/3529 [21:53:47<1:37:05, 23.12s/it] 93%|█████████▎| 3278/3529 [21:54:10<1:36:21, 23.03s/it] 93%|█████████▎| 3279/3529 [21:54:33<1:35:43, 22.97s/it] 93%|█████████▎| 3280/3529 [21:54:54<1:33:19, 22.49s/it]                                                        {'loss': 5.2161, 'grad_norm': 20.076051712036133, 'learning_rate': 1.2999711492762079e-07, 'epoch': 0.93}
+ 93%|█████████▎| 3280/3529 [21:54:54<1:33:19, 22.49s/it] 93%|█████████▎| 3281/3529 [21:55:15<1:30:32, 21.90s/it] 93%|█████████▎| 3282/3529 [21:55:40<1:35:00, 23.08s/it] 93%|█████████▎| 3283/3529 [21:56:03<1:33:33, 22.82s/it] 93%|█████████▎| 3284/3529 [21:56:24<1:30:53, 22.26s/it] 93%|█████████▎| 3285/3529 [21:56:45<1:29:16, 21.95s/it] 93%|█████████▎| 3286/3529 [21:57:08<1:29:44, 22.16s/it] 93%|█████████▎| 3287/3529 [21:57:30<1:30:11, 22.36s/it] 93%|█████████▎| 3288/3529 [21:57:55<1:33:08, 23.19s/it] 93%|█████████▎| 3289/3529 [21:58:18<1:32:04, 23.02s/it] 93%|█████████▎| 3290/3529 [21:58:39<1:28:36, 22.24s/it]                                                        {'loss': 5.3184, 'grad_norm': 25.841142654418945, 'learning_rate': 1.198063159992996e-07, 'epoch': 0.93}
+ 93%|█████████▎| 3290/3529 [21:58:39<1:28:36, 22.24s/it] 93%|█████████▎| 3291/3529 [21:59:00<1:27:47, 22.13s/it] 93%|█████████▎| 3292/3529 [21:59:23<1:27:35, 22.18s/it] 93%|█████████▎| 3293/3529 [21:59:45<1:27:16, 22.19s/it] 93%|█████████▎| 3294/3529 [22:00:09<1:29:31, 22.86s/it] 93%|█████████▎| 3295/3529 [22:00:32<1:28:57, 22.81s/it] 93%|█████████▎| 3296/3529 [22:00:54<1:28:09, 22.70s/it] 93%|█████████▎| 3297/3529 [22:01:17<1:27:47, 22.71s/it] 93%|█████████▎| 3298/3529 [22:01:46<1:34:18, 24.49s/it] 93%|█████████▎| 3299/3529 [22:02:08<1:31:39, 23.91s/it] 94%|█████████▎| 3300/3529 [22:02:33<1:32:23, 24.21s/it]                                                        {'loss': 3.3098, 'grad_norm': 35.23577117919922, 'learning_rate': 1.1002659102188784e-07, 'epoch': 0.93}
+ 94%|█████████▎| 3300/3529 [22:02:33<1:32:23, 24.21s/it] 94%|█████████▎| 3301/3529 [22:02:54<1:27:40, 23.07s/it] 94%|█████████▎| 3302/3529 [22:03:19<1:29:40, 23.70s/it] 94%|█████████▎| 3303/3529 [22:03:41<1:27:46, 23.30s/it] 94%|█████████▎| 3304/3529 [22:04:04<1:26:41, 23.12s/it] 94%|█████████▎| 3305/3529 [22:04:35<1:35:36, 25.61s/it] 94%|█████████▎| 3306/3529 [22:04:58<1:31:30, 24.62s/it] 94%|█████████▎| 3307/3529 [22:05:21<1:29:17, 24.13s/it] 94%|█████████▎| 3308/3529 [22:05:43<1:26:49, 23.57s/it] 94%|█████████▍| 3309/3529 [22:06:04<1:23:52, 22.88s/it] 94%|█████████▍| 3310/3529 [22:06:27<1:23:00, 22.74s/it]                                                        {'loss': 3.1742, 'grad_norm': 20.789785385131836, 'learning_rate': 1.006587637721551e-07, 'epoch': 0.94}
+ 94%|█████████▍| 3310/3529 [22:06:27<1:23:00, 22.74s/it] 94%|█████████▍| 3311/3529 [22:06:50<1:23:29, 22.98s/it] 94%|█████████▍| 3312/3529 [22:07:12<1:21:42, 22.59s/it] 94%|█████████▍| 3313/3529 [22:07:41<1:28:54, 24.70s/it] 94%|█████████▍| 3314/3529 [22:08:08<1:30:19, 25.21s/it] 94%|█████████▍| 3315/3529 [22:08:36<1:32:43, 26.00s/it] 94%|█████████▍| 3316/3529 [22:08:57<1:26:54, 24.48s/it] 94%|█████████▍| 3317/3529 [22:09:17<1:21:42, 23.12s/it] 94%|█████████▍| 3318/3529 [22:09:38<1:19:19, 22.56s/it] 94%|█████████▍| 3319/3529 [22:09:59<1:17:23, 22.11s/it] 94%|█████████▍| 3320/3529 [22:10:20<1:16:04, 21.84s/it]                                                        {'loss': 7.3385, 'grad_norm': 40.675296783447266, 'learning_rate': 9.170362333143778e-08, 'epoch': 0.94}
+ 94%|█████████▍| 3320/3529 [22:10:20<1:16:04, 21.84s/it] 94%|█████████▍| 3321/3529 [22:10:47<1:20:47, 23.30s/it] 94%|█████████▍| 3322/3529 [22:11:10<1:20:26, 23.32s/it] 94%|█████████▍| 3323/3529 [22:11:32<1:18:34, 22.89s/it] 94%|█████████▍| 3324/3529 [22:11:54<1:17:19, 22.63s/it] 94%|█████████▍| 3325/3529 [22:12:18<1:17:51, 22.90s/it] 94%|█████████▍| 3326/3529 [22:12:39<1:15:55, 22.44s/it] 94%|█████████▍| 3327/3529 [22:13:01<1:15:25, 22.40s/it] 94%|█████████▍| 3328/3529 [22:13:25<1:16:27, 22.82s/it] 94%|█████████▍| 3329/3529 [22:13:51<1:18:50, 23.65s/it] 94%|█████████▍| 3330/3529 [22:14:15<1:19:21, 23.93s/it]                                                        {'loss': 5.3478, 'grad_norm': 24.71589469909668, 'learning_rate': 8.316192401917667e-08, 'epoch': 0.94}
+ 94%|█████████▍| 3330/3529 [22:14:15<1:19:21, 23.93s/it] 94%|█████████▍| 3331/3529 [22:14:41<1:21:13, 24.61s/it] 94%|█████████▍| 3332/3529 [22:15:02<1:17:07, 23.49s/it] 94%|█████████▍| 3333/3529 [22:15:23<1:14:15, 22.73s/it] 94%|█████████▍| 3334/3529 [22:15:44<1:12:07, 22.19s/it] 95%|█████████▍| 3335/3529 [22:16:07<1:12:30, 22.43s/it] 95%|█████████▍| 3336/3529 [22:16:32<1:14:26, 23.14s/it] 95%|█████████▍| 3337/3529 [22:16:55<1:13:37, 23.01s/it] 95%|█████████▍| 3338/3529 [22:17:17<1:12:55, 22.91s/it] 95%|█████████▍| 3339/3529 [22:17:38<1:10:48, 22.36s/it] 95%|█████████▍| 3340/3529 [22:17:59<1:08:39, 21.80s/it]                                                        {'loss': 6.069, 'grad_norm': 38.48093032836914, 'learning_rate': 7.503438532937169e-08, 'epoch': 0.95}
+ 95%|█████████▍| 3340/3529 [22:17:59<1:08:39, 21.80s/it] 95%|█████████▍| 3341/3529 [22:18:23<1:10:40, 22.56s/it] 95%|█████████▍| 3342/3529 [22:18:54<1:17:32, 24.88s/it] 95%|█████████▍| 3343/3529 [22:19:16<1:15:03, 24.21s/it] 95%|█████████▍| 3344/3529 [22:19:41<1:14:50, 24.27s/it] 95%|█████████▍| 3345/3529 [22:20:04<1:13:18, 23.90s/it] 95%|█████████▍| 3346/3529 [22:20:25<1:10:44, 23.19s/it] 95%|█████████▍| 3347/3529 [22:20:52<1:13:14, 24.15s/it] 95%|█████████▍| 3348/3529 [22:21:16<1:12:51, 24.15s/it] 95%|█████████▍| 3349/3529 [22:21:39<1:11:23, 23.80s/it] 95%|█████████▍| 3350/3529 [22:21:59<1:07:24, 22.59s/it]                                                        {'loss': 4.1179, 'grad_norm': 26.636127471923828, 'learning_rate': 6.732169186998372e-08, 'epoch': 0.95}
+ 95%|█████████▍| 3350/3529 [22:21:59<1:07:24, 22.59s/it] 95%|█████████▍| 3351/3529 [22:22:17<1:03:40, 21.46s/it] 95%|█████████▍| 3352/3529 [22:22:37<1:01:51, 20.97s/it] 95%|█████████▌| 3353/3529 [22:23:01<1:03:46, 21.74s/it] 95%|█████████▌| 3354/3529 [22:23:23<1:04:03, 21.96s/it] 95%|█████████▌| 3355/3529 [22:23:49<1:06:41, 23.00s/it] 95%|█████████▌| 3356/3529 [22:24:15<1:09:00, 23.93s/it] 95%|█████████▌| 3357/3529 [22:24:39<1:08:49, 24.01s/it] 95%|█████████▌| 3358/3529 [22:25:00<1:06:04, 23.18s/it] 95%|█████████▌| 3359/3529 [22:25:20<1:02:44, 22.14s/it] 95%|█████████▌| 3360/3529 [22:25:41<1:01:46, 21.93s/it]                                                        {'loss': 6.9268, 'grad_norm': 42.95631790161133, 'learning_rate': 6.002449330526294e-08, 'epoch': 0.95}
+ 95%|█████████▌| 3360/3529 [22:25:41<1:01:46, 21.93s/it] 95%|█████████▌| 3361/3529 [22:26:04<1:02:00, 22.15s/it] 95%|█████████▌| 3362/3529 [22:26:27<1:02:16, 22.38s/it] 95%|█████���███▌| 3363/3529 [22:26:54<1:05:47, 23.78s/it] 95%|█████████▌| 3364/3529 [22:27:17<1:04:35, 23.49s/it] 95%|█████████▌| 3365/3529 [22:27:41<1:04:58, 23.77s/it] 95%|█████████▌| 3366/3529 [22:28:07<1:06:27, 24.46s/it] 95%|█████████▌| 3367/3529 [22:28:30<1:04:28, 23.88s/it] 95%|█████████▌| 3368/3529 [22:28:55<1:04:46, 24.14s/it] 95%|█████████▌| 3369/3529 [22:29:18<1:03:28, 23.81s/it] 95%|█████████▌| 3370/3529 [22:29:42<1:03:23, 23.92s/it]                                                        {'loss': 3.1192, 'grad_norm': 20.64594268798828, 'learning_rate': 5.31434043010276e-08, 'epoch': 0.95}
+ 95%|█████████▌| 3370/3529 [22:29:42<1:03:23, 23.92s/it] 96%|█████████▌| 3371/3529 [22:30:05<1:02:37, 23.78s/it] 96%|█████████▌| 3372/3529 [22:30:27<1:00:44, 23.22s/it] 96%|█████████▌| 3373/3529 [22:30:48<58:49, 22.63s/it]   96%|█████████▌| 3374/3529 [22:31:11<58:28, 22.64s/it] 96%|█████████▌| 3375/3529 [22:31:35<58:46, 22.90s/it] 96%|█████████▌| 3376/3529 [22:31:59<59:26, 23.31s/it] 96%|█████████▌| 3377/3529 [22:32:20<57:12, 22.58s/it] 96%|█████████▌| 3378/3529 [22:32:42<56:51, 22.60s/it] 96%|█████████▌| 3379/3529 [22:33:10<1:00:22, 24.15s/it] 96%|█████████▌| 3380/3529 [22:33:33<59:17, 23.88s/it]                                                        {'loss': 6.0163, 'grad_norm': 44.144744873046875, 'learning_rate': 4.667900447288931e-08, 'epoch': 0.96}
+ 96%|█████████▌| 3380/3529 [22:33:33<59:17, 23.88s/it] 96%|█████████▌| 3381/3529 [22:33:59<1:00:14, 24.42s/it] 96%|█████████▌| 3382/3529 [22:34:21<58:15, 23.78s/it]   96%|█████████▌| 3383/3529 [22:34:46<58:37, 24.09s/it] 96%|█████████▌| 3384/3529 [22:35:09<57:15, 23.69s/it] 96%|█████████▌| 3385/3529 [22:35:31<55:57, 23.32s/it] 96%|█████████▌| 3386/3529 [22:35:53<54:25, 22.83s/it] 96%|█████████▌| 3387/3529 [22:36:14<53:02, 22.41s/it] 96%|█████████▌| 3388/3529 [22:36:38<53:21, 22.70s/it] 96%|█████████▌| 3389/3529 [22:36:59<52:03, 22.31s/it] 96%|█████████▌| 3390/3529 [22:37:22<52:17, 22.57s/it]                                                      {'loss': 5.265, 'grad_norm': 41.0361442565918, 'learning_rate': 4.0631838337427675e-08, 'epoch': 0.96}
+ 96%|█████████▌| 3390/3529 [22:37:22<52:17, 22.57s/it] 96%|█████████▌| 3391/3529 [22:37:46<52:24, 22.79s/it] 96%|█████████▌| 3392/3529 [22:38:08<51:41, 22.64s/it] 96%|█████████▌| 3393/3529 [22:38:29<50:06, 22.10s/it] 96%|█████████▌| 3394/3529 [22:38:52<50:32, 22.46s/it] 96%|█████████▌| 3395/3529 [22:39:12<48:21, 21.65s/it] 96%|█████████▌| 3396/3529 [22:39:35<48:50, 22.04s/it] 96%|█████████▋| 3397/3529 [22:39:58<49:26, 22.47s/it] 96%|█████████▋| 3398/3529 [22:40:23<50:37, 23.19s/it] 96%|█████████▋| 3399/3529 [22:40:47<50:30, 23.31s/it] 96%|█████████▋| 3400/3529 [22:41:06<47:39, 22.16s/it]                                                      {'loss': 5.07, 'grad_norm': 28.538305282592773, 'learning_rate': 3.500241526632753e-08, 'epoch': 0.96}
+ 96%|█████████▋| 3400/3529 [22:41:06<47:39, 22.16s/it] 96%|█████████▋| 3401/3529 [22:41:30<48:27, 22.72s/it] 96%|█████████▋| 3402/3529 [22:41:54<48:46, 23.05s/it] 96%|█████████▋| 3403/3529 [22:42:17<48:21, 23.03s/it] 96%|█████████▋| 3404/3529 [22:42:42<49:07, 23.58s/it] 96%|█████████▋| 3405/3529 [22:43:04<48:02, 23.25s/it] 97%|█████████▋| 3406/3529 [22:43:27<47:02, 22.94s/it] 97%|█████████▋| 3407/3529 [22:43:48<45:55, 22.59s/it] 97%|█████████▋| 3408/3529 [22:44:13<47:02, 23.32s/it] 97%|█████████▋| 3409/3529 [22:44:36<46:27, 23.23s/it] 97%|█████████▋| 3410/3529 [22:44:59<45:50, 23.11s/it]                                                      {'loss': 4.3623, 'grad_norm': 24.23358154296875, 'learning_rate': 2.979120944346936e-08, 'epoch': 0.97}
+ 97%|█████████▋| 3410/3529 [22:44:59<45:50, 23.11s/it] 97%|█████████▋| 3411/3529 [22:45:21<44:47, 22.78s/it] 97%|█████████▋| 3412/3529 [22:45:46<45:17, 23.22s/it] 97%|█████████▋| 3413/3529 [22:46:06<43:17, 22.39s/it] 97%|█████████▋| 3414/3529 [22:46:30<43:43, 22.82s/it] 97%|█████████▋| 3415/3529 [22:46:53<43:26, 22.86s/it] 97%|█████████▋| 3416/3529 [22:47:17<43:42, 23.21s/it] 97%|█████████▋| 3417/3529 [22:47:41<43:48, 23.47s/it] 97%|█████████▋| 3418/3529 [22:48:04<43:09, 23.33s/it] 97%|█████████▋| 3419/3529 [22:48:28<43:07, 23.52s/it] 97%|█████████▋| 3420/3529 [22:48:52<42:58, 23.66s/it]                                                      {'loss': 3.3373, 'grad_norm': 26.74643898010254, 'learning_rate': 2.499865982499128e-08, 'epoch': 0.97}
+ 97%|█████████▋| 3420/3529 [22:48:52<42:58, 23.66s/it] 97%|█████████▋| 3421/3529 [22:49:16<42:56, 23.85s/it] 97%|█████████▋| 3422/3529 [22:49:39<41:46, 23.42s/it] 97%|█████████▋| 3423/3529 [22:50:00<40:04, 22.68s/it] 97%|█████████▋| 3424/3529 [22:50:21<38:55, 22.25s/it] 97%|█████████▋| 3425/3529 [22:50:43<38:34, 22.26s/it] 97%|█████████▋| 3426/3529 [22:51:03<37:12, 21.67s/it] 97%|█████████▋| 3427/3529 [22:51:23<36:00, 21.18s/it] 97%|█████████▋| 3428/3529 [22:51:44<35:19, 20.98s/it] 97%|█████████▋| 3429/3529 [22:52:06<35:45, 21.45s/it] 97%|█████████▋| 3430/3529 [22:52:31<36:44, 22.26s/it]                                                      {'loss': 4.2529, 'grad_norm': 22.635358810424805, 'learning_rate': 2.0625170102309687e-08, 'epoch': 0.97}
+ 97%|█████████▋| 3430/3529 [22:52:31<36:44, 22.26s/it] 97%|█████████▋| 3431/3529 [22:52:55<37:11, 22.77s/it] 97%|█████████▋| 3432/3529 [22:53:17<36:44, 22.72s/it] 97%|█████████▋| 3433/3529 [22:53:41<36:54, 23.07s/it] 97%|█████████▋| 3434/3529 [22:54:06<37:38, 23.77s/it] 97%|█████████▋| 3435/3529 [22:54:30<37:09, 23.72s/it] 97%|█████████▋| 3436/3529 [22:54:51<35:42, 23.04s/it] 97%|█████████▋| 3437/3529 [22:55:14<34:58, 22.81s/it] 97%|█████████▋| 3438/3529 [22:55:34<33:24, 22.02s/it] 97%|█████████▋| 3439/3529 [22:55:56<32:57, 21.98s/it] 97%|█████████▋| 3440/3529 [22:56:19<33:14, 22.41s/it]                                                      {'loss': 4.1368, 'grad_norm': 25.663415908813477, 'learning_rate': 1.6671108668119828e-08, 'epoch': 0.97}
+ 97%|█████████▋| 3440/3529 [22:56:19<33:14, 22.41s/it] 98%|█████████▊| 3441/3529 [22:56:42<32:57, 22.48s/it] 98%|█████████▊| 3442/3529 [22:57:05<32:41, 22.55s/it] 98%|█████████▊| 3443/3529 [22:57:28<32:43, 22.83s/it] 98%|█████████▊| 3444/3529 [22:57:48<31:07, 21.97s/it] 98%|█████████▊| 3445/3529 [22:58:09<30:12, 21.58s/it] 98%|█████████▊| 3446/3529 [22:58:35<31:57, 23.10s/it] 98%|█████████▊| 3447/3529 [22:58:58<31:21, 22.95s/it] 98%|█████████▊| 3448/3529 [22:59:19<30:12, 22.37s/it] 98%|█████████▊| 3449/3529 [22:59:40<29:21, 22.02s/it] 98%|█████████▊| 3450/3529 [23:00:06<30:20, 23.04s/it]                                                      {'loss': 5.9535, 'grad_norm': 28.40155029296875, 'learning_rate': 1.3136808585361149e-08, 'epoch': 0.98}
+ 98%|█████████▊| 3450/3529 [23:00:06<30:20, 23.04s/it] 98%|█████████▊| 3451/3529 [23:00:27<29:24, 22.62s/it] 98%|█████████▊| 3452/3529 [23:00:52<29:52, 23.28s/it] 98%|█████████▊| 3453/3529 [23:01:16<29:51, 23.57s/it] 98%|█████████▊| 3454/3529 [23:01:41<29:51, 23.89s/it] 98%|█████████▊| 3455/3529 [23:02:03<28:56, 23.47s/it] 98%|█████████▊| 3456/3529 [23:02:25<27:58, 22.99s/it] 98%|█████████▊| 3457/3529 [23:02:45<26:20, 21.95s/it] 98%|█████████▊| 3458/3529 [23:03:06<25:52, 21.86s/it] 98%|█████████▊| 3459/3529 [23:03:29<25:44, 22.06s/it] 98%|█████████▊| 3460/3529 [23:03:51<25:29, 22.16s/it]                                                      {'loss': 6.1661, 'grad_norm': 21.457969665527344, 'learning_rate': 1.0022567559164198e-08, 'epoch': 0.98}
+ 98%|█████████▊| 3460/3529 [23:03:51<25:29, 22.16s/it] 98%|█████████▊| 3461/3529 [23:04:17<26:23, 23.29s/it] 98%|█████████▊| 3462/3529 [23:04:38<25:16, 22.64s/it] 98%|█████████▊| 3463/3529 [23:05:01<24:50, 22.58s/it] 98%|█████████▊| 3464/3529 [23:05:19<23:08, 21.36s/it] 98%|█████████▊| 3465/3529 [23:05:40<22:37, 21.21s/it] 98%|█████████▊| 3466/3529 [23:06:03<22:39, 21.58s/it] 98%|█████████▊| 3467/3529 [23:06:23<21:52, 21.17s/it] 98%|█████████▊| 3468/3529 [23:06:46<22:00, 21.64s/it] 98%|█████████▊| 3469/3529 [23:07:06<21:19, 21.33s/it] 98%|█████████▊| 3470/3529 [23:07:29<21:19, 21.69s/it]                                                      {'loss': 4.1479, 'grad_norm': 26.77224349975586, 'learning_rate': 7.328647911774567e-09, 'epoch': 0.98}
+ 98%|█████████▊| 3470/3529 [23:07:29<21:19, 21.69s/it] 98%|█████████▊| 3471/3529 [23:07:54<21:56, 22.70s/it] 98%|█████████▊| 3472/3529 [23:08:17<21:36, 22.74s/it] 98%|█████████▊| 3473/3529 [23:08:39<21:13, 22.74s/it] 98%|█████████▊| 3474/3529 [23:09:02<20:47, 22.69s/it] 98%|█████████▊| 3475/3529 [23:09:27<20:59, 23.32s/it] 98%|█████████▊| 3476/3529 [23:09:51<20:44, 23.47s/it] 99%|█████████▊| 3477/3529 [23:10:13<20:03, 23.15s/it] 99%|█████████▊| 3478/3529 [23:10:36<19:35, 23.06s/it] 99%|█████████▊| 3479/3529 [23:11:00<19:34, 23.49s/it] 99%|█████████▊| 3480/3529 [23:11:23<18:53, 23.13s/it]                                                      {'loss': 3.216, 'grad_norm': 34.7308464050293, 'learning_rate': 5.055276560454459e-09, 'epoch': 0.99}
+ 99%|█████████▊| 3480/3529 [23:11:23<18:53, 23.13s/it] 99%|█████████▊| 3481/3529 [23:11:43<17:47, 22.25s/it] 99%|█████████▊| 3482/3529 [23:12:06<17:41, 22.59s/it] 99%|█████████▊| 3483/3529 [23:12:31<17:49, 23.25s/it] 99%|█████████▊| 3484/3529 [23:12:55<17:36, 23.48s/it] 99%|█████████▉| 3485/3529 [23:13:20<17:27, 23.82s/it] 99%|█████████▉| 3486/3529 [23:13:43<17:00, 23.74s/it] 99%|█████████▉| 3487/3529 [23:14:06<16:22, 23.38s/it] 99%|█████████▉| 3488/3529 [23:14:27<15:33, 22.78s/it] 99%|█████████▉| 3489/3529 [23:14:50<15:16, 22.91s/it] 99%|█████████▉| 3490/3529 [23:15:11<14:30, 22.33s/it]                                                      {'loss': 5.132, 'grad_norm': 27.362573623657227, 'learning_rate': 3.202644998370752e-09, 'epoch': 0.99}
+ 99%|█████████▉| 3490/3529 [23:15:11<14:30, 22.33s/it] 99%|█████████▉| 3491/3529 [23:15:33<13:57, 22.04s/it] 99%|█████████▉| 3492/3529 [23:15:57<14:01, 22.75s/it] 99%|█████████▉| 3493/3529 [23:16:18<13:23, 22.31s/it] 99%|█████████▉| 3494/3529 [23:16:40<12:53, 22.09s/it] 99%|█████████▉| 3495/3529 [23:17:06<13:11, 23.27s/it] 99%|█████████▉| 3496/3529 [23:17:28<12:37, 22.94s/it] 99%|█████████▉| 3497/3529 [23:17:47<11:38, 21.83s/it] 99%|█████████▉| 3498/3529 [23:18:08<11:09, 21.60s/it] 99%|█████████▉| 3499/3529 [23:18:33<11:11, 22.37s/it] 99%|█████████▉| 3500/3529 [23:18:58<11:18, 23.41s/it]                                                      {'loss': 6.1225, 'grad_norm': 33.32588195800781, 'learning_rate': 1.770909278464017e-09, 'epoch': 0.99}
+ 99%|█████████▉| 3500/3529 [23:18:58<11:18, 23.41s/it] 99%|█████████▉| 3501/3529 [23:19:21<10:49, 23.20s/it] 99%|█████████▉| 3502/3529 [23:19:46<10:35, 23.56s/it] 99%|█████████▉| 3503/3529 [23:20:06<09:45, 22.53s/it] 99%|█████████▉| 3504/3529 [23:20:32<09:50, 23.60s/it] 99%|█████████▉| 3505/3529 [23:20:57<09:39, 24.13s/it] 99%|█████████▉| 3506/3529 [23:21:22<09:19, 24.31s/it] 99%|█████████▉| 3507/3529 [23:21:49<09:12, 25.12s/it] 99%|█████████▉| 3508/3529 [23:22:12<08:32, 24.41s/it] 99%|█████████▉| 3509/3529 [23:22:35<08:04, 24.20s/it] 99%|█████████▉| 3510/3529 [23:22:59<07:34, 23.95s/it]                                                      {'loss': 3.1458, 'grad_norm': 19.929155349731445, 'learning_rate': 7.601900003051388e-10, 'epoch': 0.99}
+ 99%|█████████▉| 3510/3529 [23:22:59<07:34, 23.95s/it] 99%|█████████▉| 3511/3529 [23:23:22<07:08, 23.83s/it]100%|█████████▉| 3512/3529 [23:23:43<06:28, 22.84s/it]100%|█████████▉| 3513/3529 [23:24:03<05:51, 21.97s/it]100%|█████████▉| 3514/3529 [23:24:25<05:28, 21.91s/it]100%|█████████▉| 3515/3529 [23:24:47<05:09, 22.12s/it]100%|█████████▉| 3516/3529 [23:25:08<04:42, 21.76s/it]100%|█████████▉| 3517/3529 [23:25:29<04:18, 21.58s/it]100%|█████████▉| 3518/3529 [23:25:52<04:02, 22.07s/it]100%|█████████▉| 3519/3529 [23:26:15<03:42, 22.21s/it]100%|███████��█▉| 3520/3529 [23:26:41<03:29, 23.23s/it]                                                      {'loss': 7.2351, 'grad_norm': 26.834556579589844, 'learning_rate': 1.7057229993344693e-10, 'epoch': 1.0}
+100%|█████████▉| 3520/3529 [23:26:41<03:29, 23.23s/it]100%|█████████▉| 3521/3529 [23:27:03<03:03, 22.96s/it]100%|█████████▉| 3522/3529 [23:27:26<02:40, 22.93s/it]100%|█████████▉| 3523/3529 [23:27:48<02:17, 22.85s/it]100%|█████████▉| 3524/3529 [23:28:11<01:53, 22.69s/it]100%|█████████▉| 3525/3529 [23:28:33<01:30, 22.62s/it]100%|█████████▉| 3526/3529 [23:28:57<01:09, 23.08s/it]100%|█████████▉| 3527/3529 [23:29:18<00:44, 22.38s/it]100%|█████████▉| 3528/3529 [23:29:40<00:22, 22.29s/it]100%|██████████| 3529/3529 [23:30:11<00:00, 24.90s/it]/usr/local/lib/python3.12/dist-packages/torch/distributed/distributed_c10d.py:4814: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
+  warnings.warn(  # warn only once
+                                                      {'train_runtime': 84659.9545, 'train_samples_per_second': 2.502, 'train_steps_per_second': 0.042, 'train_loss': 5.616373471816494, 'epoch': 1.0}
+100%|██████████| 3529/3529 [23:30:59<00:00, 24.90s/it]100%|██████████| 3529/3529 [23:30:59<00:00, 23.99s/it]
+[rank0]:[W129 12:24:58.756125390 ProcessGroupNCCL.cpp:1534] Warning: WARNING: destroy_process_group() was not called before program exit, which can leak resources. For more info, please see https://pytorch.org/docs/stable/distributed.html#shutdown (function operator())