Upload checkpoints_vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_one_image_lr2e_5_ce_no_mse_ins/checkpoints_vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_one_image_lr2e_5_ce_no_mse_ins

Browse files

Files changed (1) hide show

checkpoints_vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_one_image_lr2e_5_ce_no_mse_ins/checkpoints_vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_one_image_lr2e_5_ce_no_mse_ins/wandb/offline-run-20260129_221235-checkpoints_vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_one_image_lr2e_5_ce_no_mse_ins-run0/files/output.log +63 -63

checkpoints_vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_one_image_lr2e_5_ce_no_mse_ins/checkpoints_vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_one_image_lr2e_5_ce_no_mse_ins/wandb/offline-run-20260129_221235-checkpoints_vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_one_image_lr2e_5_ce_no_mse_ins-run0/files/output.log CHANGED Viewed

@@ -168,6 +168,13 @@ Preparing Dataset vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_ms
   fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
   fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
 ce_avg: 0.05472184717655182, mse_avg: 0.0
 wandb: Detected [huggingface_hub.inference] in use.
 wandb: Use W&B Weave for improved LLM call tracing. Install Weave with `pip install weave` then add `import weave` to the top of your script.
 wandb: For more information, check out the docs at: https://weave-docs.wandb.ai/
@@ -1220,6 +1227,27 @@ wandb: For more information, check out the docs at: https://weave-docs.wandb.ai/
 [[34m2026-01-29 22:55:52[39m] (step=0001039) Train Loss mse: 0.0000, Train Loss ce: 0.0495, Train Steps/Sec: 0.42,
 [[34m2026-01-29 22:55:54[39m] (step=0001040) Train Loss mse: 0.0000, Train Loss ce: 0.0516, Train Steps/Sec: 0.52,
 [[34m2026-01-29 22:55:56[39m] (step=0001041) Train Loss mse: 0.0000, Train Loss ce: 0.0560, Train Steps/Sec: 0.52,
 [[34m2026-01-29 22:55:58[39m] (step=0001042) Train Loss mse: 0.0000, Train Loss ce: 0.0513, Train Steps/Sec: 0.45,
 [[34m2026-01-29 22:56:01[39m] (step=0001043) Train Loss mse: 0.0000, Train Loss ce: 0.0505, Train Steps/Sec: 0.43,
 [[34m2026-01-29 22:56:03[39m] (step=0001044) Train Loss mse: 0.0000, Train Loss ce: 0.0511, Train Steps/Sec: 0.52,
@@ -1301,27 +1329,6 @@ wandb: For more information, check out the docs at: https://weave-docs.wandb.ai/
 [[34m2026-01-29 22:58:44[39m] (step=0001120) Train Loss mse: 0.0000, Train Loss ce: 0.0513, Train Steps/Sec: 0.52,
 [[34m2026-01-29 22:58:46[39m] (step=0001121) Train Loss mse: 0.0000, Train Loss ce: 0.0540, Train Steps/Sec: 0.52,
 [[34m2026-01-29 22:58:48[39m] (step=0001122) Train Loss mse: 0.0000, Train Loss ce: 0.0531, Train Steps/Sec: 0.47,
-base_dir is /dev/shm/models/checkpoints_vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_one_image_lr2e_5_ce_no_mse_ins/eval_used_rows, step_tag is checkpoints_vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_one_image_lr2e_5_ce_no_mse_ins_step1000
-Preparing Dataset vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce/vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_val
-[eval debug] first 3 batch fingerprints:
-  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
-  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
-  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
-ce_avg: 0.0573262944817543, mse_avg: 0.0
-base_dir is /dev/shm/models/checkpoints_vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_one_image_lr2e_5_ce_no_mse_ins/eval_used_rows, step_tag is checkpoints_vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_one_image_lr2e_5_ce_no_mse_ins_step1500
-Preparing Dataset vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce/vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_val
-[eval debug] first 3 batch fingerprints:
-  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
-  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
-  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
-ce_avg: 0.06291162222623825, mse_avg: 0.0
-base_dir is /dev/shm/models/checkpoints_vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_one_image_lr2e_5_ce_no_mse_ins/eval_used_rows, step_tag is checkpoints_vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_one_image_lr2e_5_ce_no_mse_ins_step2000
-Preparing Dataset vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce/vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_val
-[eval debug] first 3 batch fingerprints:
-  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
-  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
-  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
-ce_avg: 0.07033854722976685, mse_avg: 0.0
 [[34m2026-01-29 22:58:51[39m] (step=0001123) Train Loss mse: 0.0000, Train Loss ce: 0.0544, Train Steps/Sec: 0.41,
 [[34m2026-01-29 22:58:53[39m] (step=0001124) Train Loss mse: 0.0000, Train Loss ce: 0.0505, Train Steps/Sec: 0.40,
 [[34m2026-01-29 22:58:55[39m] (step=0001125) Train Loss mse: 0.0000, Train Loss ce: 0.0520, Train Steps/Sec: 0.46,
@@ -2774,6 +2781,20 @@ ce_avg: 0.07033854722976685, mse_avg: 0.0
 [[34m2026-01-29 23:50:38[39m] (step=0002572) Train Loss mse: 0.0000, Train Loss ce: 0.0482, Train Steps/Sec: 0.45,
 [[34m2026-01-29 23:50:40[39m] (step=0002573) Train Loss mse: 0.0000, Train Loss ce: 0.0470, Train Steps/Sec: 0.41,
 [[34m2026-01-29 23:50:42[39m] (step=0002574) Train Loss mse: 0.0000, Train Loss ce: 0.0454, Train Steps/Sec: 0.52,
 [[34m2026-01-29 23:50:44[39m] (step=0002575) Train Loss mse: 0.0000, Train Loss ce: 0.0474, Train Steps/Sec: 0.52,
 [[34m2026-01-29 23:50:46[39m] (step=0002576) Train Loss mse: 0.0000, Train Loss ce: 0.0484, Train Steps/Sec: 0.52,
 [[34m2026-01-29 23:50:48[39m] (step=0002577) Train Loss mse: 0.0000, Train Loss ce: 0.0470, Train Steps/Sec: 0.52,
@@ -2860,27 +2881,6 @@ ce_avg: 0.07033854722976685, mse_avg: 0.0
 [[34m2026-01-29 23:53:42[39m] (step=0002658) Train Loss mse: 0.0000, Train Loss ce: 0.0479, Train Steps/Sec: 0.44,
 [[34m2026-01-29 23:53:44[39m] (step=0002659) Train Loss mse: 0.0000, Train Loss ce: 0.0465, Train Steps/Sec: 0.52,
 [[34m2026-01-29 23:53:46[39m] (step=0002660) Train Loss mse: 0.0000, Train Loss ce: 0.0461, Train Steps/Sec: 0.51,
-base_dir is /dev/shm/models/checkpoints_vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_one_image_lr2e_5_ce_no_mse_ins/eval_used_rows, step_tag is checkpoints_vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_one_image_lr2e_5_ce_no_mse_ins_step2500
-Preparing Dataset vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce/vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_val
-[eval debug] first 3 batch fingerprints:
-  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
-  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
-  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
-ce_avg: 0.08825891464948654, mse_avg: 0.0
-base_dir is /dev/shm/models/checkpoints_vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_one_image_lr2e_5_ce_no_mse_ins/eval_used_rows, step_tag is checkpoints_vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_one_image_lr2e_5_ce_no_mse_ins_step3000
-Preparing Dataset vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce/vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_val
-[eval debug] first 3 batch fingerprints:
-  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
-  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
-  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
-ce_avg: 0.14744605123996735, mse_avg: 0.0
-base_dir is /dev/shm/models/checkpoints_vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_one_image_lr2e_5_ce_no_mse_ins/eval_used_rows, step_tag is checkpoints_vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_one_image_lr2e_5_ce_no_mse_ins_step3500
-Preparing Dataset vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce/vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_val
-[eval debug] first 3 batch fingerprints:
-  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
-  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
-  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
-ce_avg: 0.38679561018943787, mse_avg: 0.0
 [[34m2026-01-29 23:53:48[39m] (step=0002661) Train Loss mse: 0.0000, Train Loss ce: 0.0476, Train Steps/Sec: 0.41,
 [[34m2026-01-29 23:53:50[39m] (step=0002662) Train Loss mse: 0.0000, Train Loss ce: 0.0465, Train Steps/Sec: 0.51,
 [[34m2026-01-29 23:53:52[39m] (step=0002663) Train Loss mse: 0.0000, Train Loss ce: 0.0473, Train Steps/Sec: 0.47,
@@ -3801,6 +3801,27 @@ ce_avg: 0.38679561018943787, mse_avg: 0.0
 [[34m2026-01-30 00:26:31[39m] (step=0003578) Train Loss mse: 0.0000, Train Loss ce: 0.0419, Train Steps/Sec: 0.47,
 [[34m2026-01-30 00:26:34[39m] (step=0003579) Train Loss mse: 0.0000, Train Loss ce: 0.0445, Train Steps/Sec: 0.47,
 [[34m2026-01-30 00:26:36[39m] (step=0003580) Train Loss mse: 0.0000, Train Loss ce: 0.0464, Train Steps/Sec: 0.51,
 [[34m2026-01-30 00:26:38[39m] (step=0003581) Train Loss mse: 0.0000, Train Loss ce: 0.0462, Train Steps/Sec: 0.41,
 [[34m2026-01-30 00:26:40[39m] (step=0003582) Train Loss mse: 0.0000, Train Loss ce: 0.0450, Train Steps/Sec: 0.52,
 [[34m2026-01-30 00:26:42[39m] (step=0003583) Train Loss mse: 0.0000, Train Loss ce: 0.0436, Train Steps/Sec: 0.52,
@@ -4027,27 +4048,6 @@ ce_avg: 0.38679561018943787, mse_avg: 0.0
 [[34m2026-01-30 00:34:36[39m] (step=0003804) Train Loss mse: 0.0000, Train Loss ce: 0.0451, Train Steps/Sec: 0.46,
 [[34m2026-01-30 00:34:39[39m] (step=0003805) Train Loss mse: 0.0000, Train Loss ce: 0.0433, Train Steps/Sec: 0.42,
 [[34m2026-01-30 00:34:41[39m] (step=0003806) Train Loss mse: 0.0000, Train Loss ce: 0.0466, Train Steps/Sec: 0.43,
-[[34m2026-01-30 00:34:43
-base_dir is /dev/shm/models/checkpoints_vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_one_image_lr2e_5_ce_no_mse_ins/eval_used_rows, step_tag is checkpoints_vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_one_image_lr2e_5_ce_no_mse_ins_step4000
-Preparing Dataset vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce/vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_val
-[eval debug] first 3 batch fingerprints:
-  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
-  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
-  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
-ce_avg: 0.6535353660583496, mse_avg: 0.0
-base_dir is /dev/shm/models/checkpoints_vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_one_image_lr2e_5_ce_no_mse_ins/eval_used_rows, step_tag is checkpoints_vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_one_image_lr2e_5_ce_no_mse_ins_step4500
-Preparing Dataset vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce/vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_val
-[eval debug] first 3 batch fingerprints:
-  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
-  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
-  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
-ce_avg: 0.757265567779541, mse_avg: 0.0
-base_dir is /dev/shm/models/checkpoints_vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_one_image_lr2e_5_ce_no_mse_ins/eval_used_rows, step_tag is checkpoints_vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_one_image_lr2e_5_ce_no_mse_ins_step5000
-Preparing Dataset vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce/vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_val
-[eval debug] first 3 batch fingerprints:
-  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
-  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
-  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
 [[34m2026-01-30 00:34:43[39m] (step=0003807) Train Loss mse: 0.0000, Train Loss ce: 0.0443, Train Steps/Sec: 0.52,
 [[34m2026-01-30 00:34:45[39m] (step=0003808) Train Loss mse: 0.0000, Train Loss ce: 0.0425, Train Steps/Sec: 0.52,
 [[34m2026-01-30 00:34:47[39m] (step=0003809) Train Loss mse: 0.0000, Train Loss ce: 0.0486, Train Steps/Sec: 0.52,

   fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
   fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
 ce_avg: 0.05472184717655182, mse_avg: 0.0
+base_dir is /dev/shm/models/checkpoints_vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_one_image_lr2e_5_ce_no_mse_ins/eval_used_rows, step_tag is checkpoints_vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_one_image_lr2e_5_ce_no_mse_ins_step1000
+Preparing Dataset vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce/vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_val
+[eval debug] first 3 batch fingerprints:
+  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
+  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
+  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
+ce_avg: 0.0573262944817543, mse_avg: 0.0
 wandb: Detected [huggingface_hub.inference] in use.
 wandb: Use W&B Weave for improved LLM call tracing. Install Weave with `pip install weave` then add `import weave` to the top of your script.
 wandb: For more information, check out the docs at: https://weave-docs.wandb.ai/
 [[34m2026-01-29 22:55:52[39m] (step=0001039) Train Loss mse: 0.0000, Train Loss ce: 0.0495, Train Steps/Sec: 0.42,
 [[34m2026-01-29 22:55:54[39m] (step=0001040) Train Loss mse: 0.0000, Train Loss ce: 0.0516, Train Steps/Sec: 0.52,
 [[34m2026-01-29 22:55:56[39m] (step=0001041) Train Loss mse: 0.0000, Train Loss ce: 0.0560, Train Steps/Sec: 0.52,
+base_dir is /dev/shm/models/checkpoints_vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_one_image_lr2e_5_ce_no_mse_ins/eval_used_rows, step_tag is checkpoints_vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_one_image_lr2e_5_ce_no_mse_ins_step1500
+Preparing Dataset vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce/vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_val
+[eval debug] first 3 batch fingerprints:
+  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
+  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
+  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
+ce_avg: 0.06291162222623825, mse_avg: 0.0
+base_dir is /dev/shm/models/checkpoints_vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_one_image_lr2e_5_ce_no_mse_ins/eval_used_rows, step_tag is checkpoints_vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_one_image_lr2e_5_ce_no_mse_ins_step2000
+Preparing Dataset vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce/vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_val
+[eval debug] first 3 batch fingerprints:
+  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
+  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
+  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
+ce_avg: 0.07033854722976685, mse_avg: 0.0
+base_dir is /dev/shm/models/checkpoints_vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_one_image_lr2e_5_ce_no_mse_ins/eval_used_rows, step_tag is checkpoints_vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_one_image_lr2e_5_ce_no_mse_ins_step2500
+Preparing Dataset vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce/vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_val
+[eval debug] first 3 batch fingerprints:
+  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
+  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
+  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
+ce_avg: 0.08825891464948654, mse_avg: 0.0
 [[34m2026-01-29 22:55:58[39m] (step=0001042) Train Loss mse: 0.0000, Train Loss ce: 0.0513, Train Steps/Sec: 0.45,
 [[34m2026-01-29 22:56:01[39m] (step=0001043) Train Loss mse: 0.0000, Train Loss ce: 0.0505, Train Steps/Sec: 0.43,
 [[34m2026-01-29 22:56:03[39m] (step=0001044) Train Loss mse: 0.0000, Train Loss ce: 0.0511, Train Steps/Sec: 0.52,
 [[34m2026-01-29 22:58:44[39m] (step=0001120) Train Loss mse: 0.0000, Train Loss ce: 0.0513, Train Steps/Sec: 0.52,
 [[34m2026-01-29 22:58:46[39m] (step=0001121) Train Loss mse: 0.0000, Train Loss ce: 0.0540, Train Steps/Sec: 0.52,
 [[34m2026-01-29 22:58:48[39m] (step=0001122) Train Loss mse: 0.0000, Train Loss ce: 0.0531, Train Steps/Sec: 0.47,
 [[34m2026-01-29 22:58:51[39m] (step=0001123) Train Loss mse: 0.0000, Train Loss ce: 0.0544, Train Steps/Sec: 0.41,
 [[34m2026-01-29 22:58:53[39m] (step=0001124) Train Loss mse: 0.0000, Train Loss ce: 0.0505, Train Steps/Sec: 0.40,
 [[34m2026-01-29 22:58:55[39m] (step=0001125) Train Loss mse: 0.0000, Train Loss ce: 0.0520, Train Steps/Sec: 0.46,
 [[34m2026-01-29 23:50:38[39m] (step=0002572) Train Loss mse: 0.0000, Train Loss ce: 0.0482, Train Steps/Sec: 0.45,
 [[34m2026-01-29 23:50:40[39m] (step=0002573) Train Loss mse: 0.0000, Train Loss ce: 0.0470, Train Steps/Sec: 0.41,
 [[34m2026-01-29 23:50:42[39m] (step=0002574) Train Loss mse: 0.0000, Train Loss ce: 0.0454, Train Steps/Sec: 0.52,
+base_dir is /dev/shm/models/checkpoints_vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_one_image_lr2e_5_ce_no_mse_ins/eval_used_rows, step_tag is checkpoints_vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_one_image_lr2e_5_ce_no_mse_ins_step3000
+Preparing Dataset vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce/vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_val
+[eval debug] first 3 batch fingerprints:
+  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
+  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
+  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
+ce_avg: 0.14744605123996735, mse_avg: 0.0
+base_dir is /dev/shm/models/checkpoints_vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_one_image_lr2e_5_ce_no_mse_ins/eval_used_rows, step_tag is checkpoints_vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_one_image_lr2e_5_ce_no_mse_ins_step3500
+Preparing Dataset vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce/vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_val
+[eval debug] first 3 batch fingerprints:
+  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
+  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
+  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
+ce_avg: 0.38679561018943787, mse_avg: 0.0
 [[34m2026-01-29 23:50:44[39m] (step=0002575) Train Loss mse: 0.0000, Train Loss ce: 0.0474, Train Steps/Sec: 0.52,
 [[34m2026-01-29 23:50:46[39m] (step=0002576) Train Loss mse: 0.0000, Train Loss ce: 0.0484, Train Steps/Sec: 0.52,
 [[34m2026-01-29 23:50:48[39m] (step=0002577) Train Loss mse: 0.0000, Train Loss ce: 0.0470, Train Steps/Sec: 0.52,
 [[34m2026-01-29 23:53:42[39m] (step=0002658) Train Loss mse: 0.0000, Train Loss ce: 0.0479, Train Steps/Sec: 0.44,
 [[34m2026-01-29 23:53:44[39m] (step=0002659) Train Loss mse: 0.0000, Train Loss ce: 0.0465, Train Steps/Sec: 0.52,
 [[34m2026-01-29 23:53:46[39m] (step=0002660) Train Loss mse: 0.0000, Train Loss ce: 0.0461, Train Steps/Sec: 0.51,
 [[34m2026-01-29 23:53:48[39m] (step=0002661) Train Loss mse: 0.0000, Train Loss ce: 0.0476, Train Steps/Sec: 0.41,
 [[34m2026-01-29 23:53:50[39m] (step=0002662) Train Loss mse: 0.0000, Train Loss ce: 0.0465, Train Steps/Sec: 0.51,
 [[34m2026-01-29 23:53:52[39m] (step=0002663) Train Loss mse: 0.0000, Train Loss ce: 0.0473, Train Steps/Sec: 0.47,
 [[34m2026-01-30 00:26:31[39m] (step=0003578) Train Loss mse: 0.0000, Train Loss ce: 0.0419, Train Steps/Sec: 0.47,
 [[34m2026-01-30 00:26:34[39m] (step=0003579) Train Loss mse: 0.0000, Train Loss ce: 0.0445, Train Steps/Sec: 0.47,
 [[34m2026-01-30 00:26:36[39m] (step=0003580) Train Loss mse: 0.0000, Train Loss ce: 0.0464, Train Steps/Sec: 0.51,
+base_dir is /dev/shm/models/checkpoints_vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_one_image_lr2e_5_ce_no_mse_ins/eval_used_rows, step_tag is checkpoints_vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_one_image_lr2e_5_ce_no_mse_ins_step4000
+Preparing Dataset vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce/vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_val
+[eval debug] first 3 batch fingerprints:
+  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
+  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
+  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
+ce_avg: 0.6535353660583496, mse_avg: 0.0
+base_dir is /dev/shm/models/checkpoints_vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_one_image_lr2e_5_ce_no_mse_ins/eval_used_rows, step_tag is checkpoints_vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_one_image_lr2e_5_ce_no_mse_ins_step4500
+Preparing Dataset vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce/vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_val
+[eval debug] first 3 batch fingerprints:
+  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
+  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
+  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
+ce_avg: 0.757265567779541, mse_avg: 0.0
+base_dir is /dev/shm/models/checkpoints_vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_one_image_lr2e_5_ce_no_mse_ins/eval_used_rows, step_tag is checkpoints_vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_one_image_lr2e_5_ce_no_mse_ins_step5000
+Preparing Dataset vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce/vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_val
+[eval debug] first 3 batch fingerprints:
+  fp[0]: [{'data_indexes': [0], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
+  fp[1]: [{'data_indexes': [8], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
+  fp[2]: [{'data_indexes': [16], 'worker_id': 0, 'dataset_name': 'vlm_gym_mental_rotation_3d_objaverse_pad3_by_axis_celoss_no_mse_evalonce'}]
+ce_avg: 0.7789239287376404, mse_avg: 0.0
 [[34m2026-01-30 00:26:38[39m] (step=0003581) Train Loss mse: 0.0000, Train Loss ce: 0.0462, Train Steps/Sec: 0.41,
 [[34m2026-01-30 00:26:40[39m] (step=0003582) Train Loss mse: 0.0000, Train Loss ce: 0.0450, Train Steps/Sec: 0.52,
 [[34m2026-01-30 00:26:42[39m] (step=0003583) Train Loss mse: 0.0000, Train Loss ce: 0.0436, Train Steps/Sec: 0.52,
 [[34m2026-01-30 00:34:36[39m] (step=0003804) Train Loss mse: 0.0000, Train Loss ce: 0.0451, Train Steps/Sec: 0.46,
 [[34m2026-01-30 00:34:39[39m] (step=0003805) Train Loss mse: 0.0000, Train Loss ce: 0.0433, Train Steps/Sec: 0.42,
 [[34m2026-01-30 00:34:41[39m] (step=0003806) Train Loss mse: 0.0000, Train Loss ce: 0.0466, Train Steps/Sec: 0.43,
 [[34m2026-01-30 00:34:43[39m] (step=0003807) Train Loss mse: 0.0000, Train Loss ce: 0.0443, Train Steps/Sec: 0.52,
 [[34m2026-01-30 00:34:45[39m] (step=0003808) Train Loss mse: 0.0000, Train Loss ce: 0.0425, Train Steps/Sec: 0.52,
 [[34m2026-01-30 00:34:47[39m] (step=0003809) Train Loss mse: 0.0000, Train Loss ce: 0.0486, Train Steps/Sec: 0.52,