Base model is: /zju_0038/wyy/mergebench/models/Llama-3.2-3B
Models to be merged are: ['/zju_0038/yifyang/scripts/models/llama-instruct-3B-v2-algebra', '/zju_0038/yifyang/scripts/models/llama-instruct-3B-v2-analysis', '/zju_0038/yifyang/scripts/models/llama-instruct-3B-v2-number_theory', '/zju_0038/yifyang/scripts/models/llama-instruct-3B-v2-discrete', '/zju_0038/yifyang/scripts/models/llama-instruct-3B-v2-biology', '/zju_0038/yifyang/scripts/models/llama-3.2-Korean-Bllossom-3B', '/zju_0038/yifyang/scripts/models/llama-instruct-3B-v2-code', '/zju_0038/yifyang/scripts/models/Llama-3.2-3B-Instruct-tuned', '/zju_0038/yifyang/scripts/models/Llama3.2-3B-ShiningValiant2', '/zju_0038/yifyang/scripts/models/FineMath-Llama-3B', '/zju_0038/yifyang/scripts/models/Llama-3.2-3B_MATH_lisa', '/zju_0038/yifyang/scripts/models/saves_llama3.2_3b_origianl_MATH_training_rewrite_common_normal', '/zju_0038/yifyang/scripts/models/GSM8K-Binary_Llama-3.2-3B-ihl420el', '/zju_0038/yifyang/scripts/models/saves_llama3.2_3b_origianl_MATH_training_rewrite_common_shorter_8b', '/zju_0038/yifyang/scripts/models/Llama-3.2-3B-math-SFT', '/zju_0038/yifyang/scripts/models/Llama-3.2-3B-math-R3']
Scaling coefficient is 0.1
Merging conducted on cpu
Loading base model in offline mode...
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:01<00:00,  1.04it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:01<00:00,  1.04it/s]
Loading tokenizer in offline mode...
Loading candidate model 1/16: llama-instruct-3B-v2-algebra
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:04<00:00,  2.16s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:04<00:00,  2.16s/it]
Loading candidate model 2/16: llama-instruct-3B-v2-analysis
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  3.95it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  3.95it/s]
Loading candidate model 3/16: llama-instruct-3B-v2-number_theory
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  6.95it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  6.95it/s]
Loading candidate model 4/16: llama-instruct-3B-v2-discrete
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  3.19it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  3.19it/s]
Loading candidate model 5/16: llama-instruct-3B-v2-biology
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:03<00:00,  1.69s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:03<00:00,  1.69s/it]
Loading candidate model 6/16: llama-3.2-Korean-Bllossom-3B
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:02<00:00,  1.12s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:02<00:00,  1.12s/it]
Loading candidate model 7/16: llama-instruct-3B-v2-code
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  5.38it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  5.38it/s]
Loading candidate model 8/16: Llama-3.2-3B-Instruct-tuned
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  6.84it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  6.83it/s]
Loading candidate model 9/16: Llama3.2-3B-ShiningValiant2
Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]Loading checkpoint shards:  33%|███▎      | 1/3 [00:04<00:08,  4.28s/it]Loading checkpoint shards:  67%|██████▋   | 2/3 [00:12<00:06,  6.34s/it]Loading checkpoint shards: 100%|██████████| 3/3 [00:16<00:00,  5.61s/it]Loading checkpoint shards: 100%|██████████| 3/3 [00:16<00:00,  5.60s/it]
`rope_scaling`'s original_max_position_embeddings field must be less than max_position_embeddings, got 8192 and max_position_embeddings=4096
Loading candidate model 10/16: FineMath-Llama-3B
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:04<00:00,  2.07s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:04<00:00,  2.07s/it]
Loading candidate model 11/16: Llama-3.2-3B_MATH_lisa
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:03<00:00,  1.74s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:03<00:00,  1.74s/it]
Loading candidate model 12/16: saves_llama3.2_3b_origianl_MATH_training_rewrite_common_normal
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:04<00:00,  2.20s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:04<00:00,  2.20s/it]
Loading candidate model 13/16: GSM8K-Binary_Llama-3.2-3B-ihl420el
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:04<00:00,  2.13s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:04<00:00,  2.13s/it]
Loading candidate model 14/16: saves_llama3.2_3b_origianl_MATH_training_rewrite_common_shorter_8b
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:03<00:00,  1.97s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:03<00:00,  1.97s/it]
Loading candidate model 15/16: Llama-3.2-3B-math-SFT
Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]Loading checkpoint shards:  33%|███▎      | 1/3 [00:06<00:13,  6.61s/it]Loading checkpoint shards:  67%|██████▋   | 2/3 [00:17<00:09,  9.19s/it]Loading checkpoint shards: 100%|██████████| 3/3 [00:24<00:00,  7.98s/it]Loading checkpoint shards: 100%|██████████| 3/3 [00:24<00:00,  8.05s/it]
Loading candidate model 16/16: Llama-3.2-3B-math-R3
Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]Loading checkpoint shards:  33%|███▎      | 1/3 [00:00<00:01,  1.27it/s]Loading checkpoint shards:  67%|██████▋   | 2/3 [00:06<00:03,  3.54s/it]Loading checkpoint shards: 100%|██████████| 3/3 [00:11<00:00,  4.12s/it]Loading checkpoint shards: 100%|██████████| 3/3 [00:11<00:00,  3.69s/it]
Saving model to /zju_0038/yifyang/co-genai/Merging-Scaling-Law-main/models/merged/Llama-3B-cmb/task_arithmetic_16/sc0.1_r0/1-2-3-5-8-9-10-11-14-15-16-18-20-21-22-23
[2025-10-20 04:50:49,274] [INFO] [real_accelerator.py:222:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[1760972943.484738] [3fvqg0kuu45gn-0:85616:f]        vfs_fuse.c:281  UCX  ERROR inotify_add_watch(/tmp) failed: No space left on device
Base model is: /zju_0038/wyy/mergebench/models/Llama-3.2-3B
Models to be merged are: ['/zju_0038/yifyang/scripts/models/llama-instruct-3B-v2-algebra', '/zju_0038/yifyang/scripts/models/llama-instruct-3B-v2-analysis', '/zju_0038/yifyang/scripts/models/llama-instruct-3B-v2-number_theory', '/zju_0038/yifyang/scripts/models/llama-instruct-3B-v2-discrete', '/zju_0038/yifyang/scripts/models/llama-instruct-3B-v2-biology', '/zju_0038/yifyang/scripts/models/llama-3.2-Korean-Bllossom-3B', '/zju_0038/yifyang/scripts/models/llama-instruct-3B-v2-code', '/zju_0038/yifyang/scripts/models/Llama-3.2-3B-Instruct-tuned', '/zju_0038/yifyang/scripts/models/Llama3.2-3B-ShiningValiant2', '/zju_0038/yifyang/scripts/models/FineMath-Llama-3B', '/zju_0038/yifyang/scripts/models/Llama-3.2-3B_MATH_lisa', '/zju_0038/yifyang/scripts/models/saves_llama3.2_3b_origianl_MATH_training_rewrite_common_normal', '/zju_0038/yifyang/scripts/models/GSM8K-Binary_Llama-3.2-3B-ihl420el', '/zju_0038/yifyang/scripts/models/saves_llama3.2_3b_origianl_MATH_training_rewrite_common_shorter_8b', '/zju_0038/yifyang/scripts/models/Llama-3.2-3B-math-SFT', '/zju_0038/yifyang/scripts/models/Llama-3.2-3B-math-R3']
Scaling coefficient is 0.1
Merging conducted on cpu
Loading base model in offline mode...
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:01<00:01,  1.54s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:01<00:00,  1.44it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:01<00:00,  1.22it/s]
Loading tokenizer in offline mode...
Loading candidate model 1/16: llama-instruct-3B-v2-algebra
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:01<00:01,  1.33s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:01<00:00,  1.18it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:01<00:00,  1.09it/s]
Loading candidate model 2/16: llama-instruct-3B-v2-analysis
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:01<00:01,  1.31s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:01<00:00,  1.15it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:01<00:00,  1.07it/s]
Loading candidate model 3/16: llama-instruct-3B-v2-number_theory
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:01<00:01,  1.23s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:01<00:00,  1.20it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:01<00:00,  1.12it/s]
Loading candidate model 4/16: llama-instruct-3B-v2-discrete
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:01<00:01,  1.66s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:02<00:00,  1.08s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:02<00:00,  1.17s/it]
Loading candidate model 5/16: llama-instruct-3B-v2-biology
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:01<00:01,  1.06s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:01<00:00,  1.37it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:01<00:00,  1.29it/s]
Loading candidate model 6/16: llama-3.2-Korean-Bllossom-3B
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:01<00:01,  1.05s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:01<00:00,  1.35it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:01<00:00,  1.27it/s]
Loading candidate model 7/16: llama-instruct-3B-v2-code
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:01<00:01,  1.05s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:01<00:00,  1.46it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:01<00:00,  1.36it/s]
Loading candidate model 8/16: Llama-3.2-3B-Instruct-tuned
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  1.00it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:01<00:00,  1.61it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:01<00:00,  1.47it/s]
Loading candidate model 9/16: Llama3.2-3B-ShiningValiant2
Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]Loading checkpoint shards:  33%|███▎      | 1/3 [00:08<00:16,  8.43s/it]Loading checkpoint shards:  67%|██████▋   | 2/3 [00:18<00:09,  9.61s/it]Loading checkpoint shards: 100%|██████████| 3/3 [00:25<00:00,  8.08s/it]Loading checkpoint shards: 100%|██████████| 3/3 [00:25<00:00,  8.37s/it]
`rope_scaling`'s original_max_position_embeddings field must be less than max_position_embeddings, got 8192 and max_position_embeddings=4096
Loading candidate model 10/16: FineMath-Llama-3B
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:01<00:01,  1.05s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:01<00:00,  1.57it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:01<00:00,  1.43it/s]
Loading candidate model 11/16: Llama-3.2-3B_MATH_lisa
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  1.00it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:01<00:00,  1.41it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:01<00:00,  1.33it/s]
Loading candidate model 12/16: saves_llama3.2_3b_origianl_MATH_training_rewrite_common_normal
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  1.23it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:01<00:00,  1.71it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:01<00:00,  1.61it/s]
Loading candidate model 13/16: GSM8K-Binary_Llama-3.2-3B-ihl420el
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  7.86it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  3.97it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  4.28it/s]
Loading candidate model 14/16: saves_llama3.2_3b_origianl_MATH_training_rewrite_common_shorter_8b
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  8.36it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  4.05it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  4.39it/s]
Loading candidate model 15/16: Llama-3.2-3B-math-SFT
Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]Loading checkpoint shards:  33%|███▎      | 1/3 [00:07<00:15,  7.56s/it]Loading checkpoint shards:  67%|██████▋   | 2/3 [00:17<00:09,  9.07s/it]Loading checkpoint shards: 100%|██████████| 3/3 [00:24<00:00,  7.91s/it]Loading checkpoint shards: 100%|██████████| 3/3 [00:24<00:00,  8.07s/it]
Loading candidate model 16/16: Llama-3.2-3B-math-R3
Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]Loading checkpoint shards:  33%|███▎      | 1/3 [00:07<00:14,  7.49s/it]Loading checkpoint shards:  67%|██████▋   | 2/3 [00:17<00:08,  8.87s/it]Loading checkpoint shards: 100%|██████████| 3/3 [00:23<00:00,  7.83s/it]Loading checkpoint shards: 100%|██████████| 3/3 [00:23<00:00,  7.97s/it]
Saving model to /zju_0038/yifyang/co-genai/Merging-Scaling-Law-main/models/merged/Llama-3B-cmb/task_arithmetic_16/sc0.1_r0/1-2-3-5-8-9-10-11-14-15-16-18-20-21-22-23
[2025-10-20 15:14:35,446] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[93m [WARNING] [0m async_io requires the dev libaio .so object and headers but these were not found.
[93m [WARNING] [0m async_io: please install the libaio-dev package with apt
[93m [WARNING] [0m If libaio is already installed (perhaps from source), try setting the CFLAGS and LDFLAGS environment variables to where it can be found.
[93m [WARNING] [0m Please specify the CUTLASS repo directory as environment variable $CUTLASS_PATH
[93m [WARNING] [0m sparse_attn requires a torch version >= 1.5 and < 2.0 but detected 2.3
[93m [WARNING] [0m using untested triton version (3.0.0), only 1.0.0 is known to be compatible
Base model is: /zju_0038/wyy/mergebench/models/Llama-3.2-3B
Models to be merged are: ['/zju_0038/yifyang/scripts/models/llama-instruct-3B-v2-algebra', '/zju_0038/yifyang/scripts/models/llama-instruct-3B-v2-analysis', '/zju_0038/yifyang/scripts/models/llama-instruct-3B-v2-number_theory', '/zju_0038/yifyang/scripts/models/llama-instruct-3B-v2-discrete', '/zju_0038/yifyang/scripts/models/llama-instruct-3B-v2-biology', '/zju_0038/yifyang/scripts/models/llama-3.2-Korean-Bllossom-3B', '/zju_0038/yifyang/scripts/models/llama-instruct-3B-v2-code', '/zju_0038/yifyang/scripts/models/Llama-3.2-3B-Instruct-tuned', '/zju_0038/yifyang/scripts/models/Llama3.2-3B-ShiningValiant2', '/zju_0038/yifyang/scripts/models/FineMath-Llama-3B', '/zju_0038/yifyang/scripts/models/Llama-3.2-3B_MATH_lisa', '/zju_0038/yifyang/scripts/models/saves_llama3.2_3b_origianl_MATH_training_rewrite_common_normal', '/zju_0038/yifyang/scripts/models/GSM8K-Binary_Llama-3.2-3B-ihl420el', '/zju_0038/yifyang/scripts/models/saves_llama3.2_3b_origianl_MATH_training_rewrite_common_shorter_8b', '/zju_0038/yifyang/scripts/models/Llama-3.2-3B-math-SFT', '/zju_0038/yifyang/scripts/models/Llama-3.2-3B-math-R3']
Scaling coefficient is 0.1
Merging conducted on cpu
Loading base model in offline mode...
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:01<00:01,  1.71s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:02<00:00,  1.13s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:02<00:00,  1.22s/it]
Loading tokenizer in offline mode...
Loading candidate model 1/16: llama-instruct-3B-v2-algebra
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:01<00:01,  1.81s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:02<00:00,  1.15s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:02<00:00,  1.25s/it]
Loading candidate model 2/16: llama-instruct-3B-v2-analysis
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:01<00:01,  1.68s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:02<00:00,  1.12s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:02<00:00,  1.21s/it]
Loading candidate model 3/16: llama-instruct-3B-v2-number_theory
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:01<00:01,  1.78s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:02<00:00,  1.16s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:02<00:00,  1.25s/it]
Loading candidate model 4/16: llama-instruct-3B-v2-discrete
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:01<00:01,  1.72s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:02<00:00,  1.13s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:02<00:00,  1.21s/it]
Loading candidate model 5/16: llama-instruct-3B-v2-biology
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:01<00:01,  1.77s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:02<00:00,  1.13s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:02<00:00,  1.23s/it]
Loading candidate model 6/16: llama-3.2-Korean-Bllossom-3B
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:01<00:01,  1.68s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:02<00:00,  1.15s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:02<00:00,  1.23s/it]
Loading candidate model 7/16: llama-instruct-3B-v2-code
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:01<00:01,  1.81s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:02<00:00,  1.21s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:02<00:00,  1.30s/it]
Loading candidate model 8/16: Llama-3.2-3B-Instruct-tuned
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:01<00:01,  1.69s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:02<00:00,  1.13s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:02<00:00,  1.22s/it]
Loading candidate model 9/16: Llama3.2-3B-ShiningValiant2
Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]Loading checkpoint shards:  33%|███▎      | 1/3 [00:07<00:14,  7.47s/it]Loading checkpoint shards:  67%|██████▋   | 2/3 [00:17<00:09,  9.01s/it]Loading checkpoint shards: 100%|██████████| 3/3 [00:23<00:00,  7.59s/it]Loading checkpoint shards: 100%|██████████| 3/3 [00:23<00:00,  7.82s/it]
`rope_scaling`'s original_max_position_embeddings field must be less than max_position_embeddings, got 8192 and max_position_embeddings=4096
Loading candidate model 10/16: FineMath-Llama-3B
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:01<00:01,  1.73s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:02<00:00,  1.11s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:02<00:00,  1.21s/it]
Loading candidate model 11/16: Llama-3.2-3B_MATH_lisa
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:01<00:01,  1.65s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:02<00:00,  1.12s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:02<00:00,  1.20s/it]
Loading candidate model 12/16: saves_llama3.2_3b_origianl_MATH_training_rewrite_common_normal
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:01<00:01,  1.75s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:02<00:00,  1.13s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:02<00:00,  1.23s/it]
Loading candidate model 13/16: GSM8K-Binary_Llama-3.2-3B-ihl420el
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  5.91it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  6.58it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  6.46it/s]
Loading candidate model 14/16: saves_llama3.2_3b_origianl_MATH_training_rewrite_common_shorter_8b
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:01<00:01,  1.77s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:02<00:00,  1.17s/it]Loading checkpoint shards: 100%|██████████| 2/2 [00:02<00:00,  1.26s/it]
Loading candidate model 15/16: Llama-3.2-3B-math-SFT
Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]Loading checkpoint shards:  33%|███▎      | 1/3 [00:07<00:14,  7.49s/it]Loading checkpoint shards:  67%|██████▋   | 2/3 [00:17<00:08,  8.97s/it]Loading checkpoint shards: 100%|██████████| 3/3 [00:24<00:00,  8.09s/it]Loading checkpoint shards: 100%|██████████| 3/3 [00:24<00:00,  8.18s/it]
Loading candidate model 16/16: Llama-3.2-3B-math-R3
Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]Loading checkpoint shards:  33%|███▎      | 1/3 [00:07<00:15,  7.61s/it]Loading checkpoint shards:  67%|██████▋   | 2/3 [00:17<00:08,  8.97s/it]Loading checkpoint shards: 100%|██████████| 3/3 [00:24<00:00,  7.94s/it]Loading checkpoint shards: 100%|██████████| 3/3 [00:24<00:00,  8.08s/it]
Saving model to /zju_0038/yifyang/co-genai/Merging-Scaling-Law-main/models/merged/Llama-3B-cmb/task_arithmetic_16/sc0.1_r0/1-2-3-5-8-9-10-11-14-15-16-18-20-21-22-23
[2025-10-21 01:29:18,810] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[93m [WARNING] [0m async_io requires the dev libaio .so object and headers but these were not found.
[93m [WARNING] [0m async_io: please install the libaio-dev package with apt
[93m [WARNING] [0m If libaio is already installed (perhaps from source), try setting the CFLAGS and LDFLAGS environment variables to where it can be found.
[93m [WARNING] [0m Please specify the CUTLASS repo directory as environment variable $CUTLASS_PATH
[93m [WARNING] [0m sparse_attn requires a torch version >= 1.5 and < 2.0 but detected 2.3
[93m [WARNING] [0m using untested triton version (3.0.0), only 1.0.0 is known to be compatible
Base model is: /zju_0038/wyy/mergebench/models/Llama-3.2-3B
Models to be merged are: ['/zju_0038/yifyang/scripts/models/llama-instruct-3B-v2-algebra', '/zju_0038/yifyang/scripts/models/llama-instruct-3B-v2-analysis', '/zju_0038/yifyang/scripts/models/llama-instruct-3B-v2-number_theory', '/zju_0038/yifyang/scripts/models/llama-instruct-3B-v2-discrete', '/zju_0038/yifyang/scripts/models/llama-instruct-3B-v2-biology', '/zju_0038/yifyang/scripts/models/llama-3.2-Korean-Bllossom-3B', '/zju_0038/yifyang/scripts/models/llama-instruct-3B-v2-code', '/zju_0038/yifyang/scripts/models/Llama-3.2-3B-Instruct-tuned', '/zju_0038/yifyang/scripts/models/Llama3.2-3B-ShiningValiant2', '/zju_0038/yifyang/scripts/models/FineMath-Llama-3B', '/zju_0038/yifyang/scripts/models/Llama-3.2-3B_MATH_lisa', '/zju_0038/yifyang/scripts/models/saves_llama3.2_3b_origianl_MATH_training_rewrite_common_normal', '/zju_0038/yifyang/scripts/models/GSM8K-Binary_Llama-3.2-3B-ihl420el', '/zju_0038/yifyang/scripts/models/saves_llama3.2_3b_origianl_MATH_training_rewrite_common_shorter_8b', '/zju_0038/yifyang/scripts/models/Llama-3.2-3B-math-SFT', '/zju_0038/yifyang/scripts/models/Llama-3.2-3B-math-R3']
Scaling coefficient is 0.1
Merging conducted on cpu
Loading base model in offline mode...
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  7.61it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  8.81it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  8.60it/s]
Loading tokenizer in offline mode...
Loading candidate model 1/16: llama-instruct-3B-v2-algebra
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  7.56it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  8.55it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  8.38it/s]
Loading candidate model 2/16: llama-instruct-3B-v2-analysis
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  7.57it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  7.84it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  7.79it/s]
Loading candidate model 3/16: llama-instruct-3B-v2-number_theory
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  8.22it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  9.06it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  8.92it/s]
Loading candidate model 4/16: llama-instruct-3B-v2-discrete
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  8.11it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  8.77it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  8.66it/s]
Loading candidate model 5/16: llama-instruct-3B-v2-biology
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  7.93it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  8.74it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  8.60it/s]
Loading candidate model 6/16: llama-3.2-Korean-Bllossom-3B
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  8.10it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  8.76it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  8.65it/s]
Loading candidate model 7/16: llama-instruct-3B-v2-code
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  7.96it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  8.46it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  8.37it/s]
Loading candidate model 8/16: Llama-3.2-3B-Instruct-tuned
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  7.83it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  8.46it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  8.35it/s]
Loading candidate model 9/16: Llama3.2-3B-ShiningValiant2
Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]Loading checkpoint shards:  33%|███▎      | 1/3 [00:00<00:01,  1.13it/s]Loading checkpoint shards:  67%|██████▋   | 2/3 [00:01<00:00,  1.14it/s]Loading checkpoint shards: 100%|██████████| 3/3 [00:02<00:00,  1.37it/s]Loading checkpoint shards: 100%|██████████| 3/3 [00:02<00:00,  1.30it/s]
`rope_scaling`'s original_max_position_embeddings field must be less than max_position_embeddings, got 8192 and max_position_embeddings=4096
Loading candidate model 10/16: FineMath-Llama-3B
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  7.36it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  7.99it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  7.88it/s]
Loading candidate model 11/16: Llama-3.2-3B_MATH_lisa
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  7.33it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  7.92it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  7.81it/s]
Loading candidate model 12/16: saves_llama3.2_3b_origianl_MATH_training_rewrite_common_normal
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  7.35it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  7.78it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  7.71it/s]
Loading candidate model 13/16: GSM8K-Binary_Llama-3.2-3B-ihl420el
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  7.26it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  7.82it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  7.73it/s]
Loading candidate model 14/16: saves_llama3.2_3b_origianl_MATH_training_rewrite_common_shorter_8b
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  7.22it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  7.69it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  7.61it/s]
Loading candidate model 15/16: Llama-3.2-3B-math-SFT
Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]Loading checkpoint shards:  33%|███▎      | 1/3 [00:00<00:01,  1.15it/s]Loading checkpoint shards:  67%|██████▋   | 2/3 [00:01<00:00,  1.13it/s]Loading checkpoint shards: 100%|██████████| 3/3 [00:02<00:00,  1.18it/s]Loading checkpoint shards: 100%|██████████| 3/3 [00:02<00:00,  1.17it/s]
Loading candidate model 16/16: Llama-3.2-3B-math-R3
Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]Loading checkpoint shards:  33%|███▎      | 1/3 [00:00<00:01,  1.15it/s]Loading checkpoint shards:  67%|██████▋   | 2/3 [00:01<00:00,  1.15it/s]Loading checkpoint shards: 100%|██████████| 3/3 [00:02<00:00,  1.24it/s]Loading checkpoint shards: 100%|██████████| 3/3 [00:02<00:00,  1.21it/s]
Base model is: /zju_0038/wyy/mergebench/models/Llama-3.2-3B
Models to be merged are: ['/zju_0038/yifyang/scripts/models/llama-instruct-3B-v2-algebra', '/zju_0038/yifyang/scripts/models/llama-instruct-3B-v2-analysis', '/zju_0038/yifyang/scripts/models/llama-instruct-3B-v2-number_theory', '/zju_0038/yifyang/scripts/models/llama-instruct-3B-v2-discrete', '/zju_0038/yifyang/scripts/models/llama-instruct-3B-v2-biology', '/zju_0038/yifyang/scripts/models/llama-3.2-Korean-Bllossom-3B', '/zju_0038/yifyang/scripts/models/llama-instruct-3B-v2-code', '/zju_0038/yifyang/scripts/models/Llama-3.2-3B-Instruct-tuned', '/zju_0038/yifyang/scripts/models/Llama3.2-3B-ShiningValiant2', '/zju_0038/yifyang/scripts/models/FineMath-Llama-3B', '/zju_0038/yifyang/scripts/models/Llama-3.2-3B_MATH_lisa', '/zju_0038/yifyang/scripts/models/saves_llama3.2_3b_origianl_MATH_training_rewrite_common_normal', '/zju_0038/yifyang/scripts/models/GSM8K-Binary_Llama-3.2-3B-ihl420el', '/zju_0038/yifyang/scripts/models/saves_llama3.2_3b_origianl_MATH_training_rewrite_common_shorter_8b', '/zju_0038/yifyang/scripts/models/Llama-3.2-3B-math-SFT', '/zju_0038/yifyang/scripts/models/Llama-3.2-3B-math-R3']
Scaling coefficient is 0.1
Merging conducted on cpu
Loading base model in offline mode...
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  9.99it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00, 11.23it/s]
Loading tokenizer in offline mode...
Loading candidate model 1/16: llama-instruct-3B-v2-algebra
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  6.99it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  8.25it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  8.02it/s]
Loading candidate model 2/16: llama-instruct-3B-v2-analysis
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  8.25it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  9.03it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  8.90it/s]
Loading candidate model 3/16: llama-instruct-3B-v2-number_theory
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  6.08it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  6.85it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  6.72it/s]
Loading candidate model 4/16: llama-instruct-3B-v2-discrete
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  7.19it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  8.10it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  7.94it/s]
Loading candidate model 5/16: llama-instruct-3B-v2-biology
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  7.75it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  8.43it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  8.31it/s]
Loading candidate model 6/16: llama-3.2-Korean-Bllossom-3B
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  7.30it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  7.68it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  7.61it/s]
Loading candidate model 7/16: llama-instruct-3B-v2-code
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  8.69it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  9.53it/s]
Loading candidate model 8/16: Llama-3.2-3B-Instruct-tuned
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  6.61it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  7.78it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  7.57it/s]
Loading candidate model 9/16: Llama3.2-3B-ShiningValiant2
Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]Loading checkpoint shards:  33%|███▎      | 1/3 [00:00<00:01,  1.30it/s]Loading checkpoint shards:  67%|██████▋   | 2/3 [00:01<00:00,  1.30it/s]Loading checkpoint shards: 100%|██████████| 3/3 [00:02<00:00,  1.56it/s]Loading checkpoint shards: 100%|██████████| 3/3 [00:02<00:00,  1.48it/s]
`rope_scaling`'s original_max_position_embeddings field must be less than max_position_embeddings, got 8192 and max_position_embeddings=4096
Loading candidate model 10/16: FineMath-Llama-3B
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  8.12it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  7.52it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  7.60it/s]
Loading candidate model 11/16: Llama-3.2-3B_MATH_lisa
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  6.84it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  7.45it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  7.35it/s]
Loading candidate model 12/16: saves_llama3.2_3b_origianl_MATH_training_rewrite_common_normal
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  6.99it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  7.46it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  7.38it/s]
Loading candidate model 13/16: GSM8K-Binary_Llama-3.2-3B-ihl420el
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  6.88it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  7.70it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  7.56it/s]
Loading candidate model 14/16: saves_llama3.2_3b_origianl_MATH_training_rewrite_common_shorter_8b
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  6.28it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  6.90it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  6.80it/s]
Loading candidate model 15/16: Llama-3.2-3B-math-SFT
Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]Loading checkpoint shards:  33%|███▎      | 1/3 [00:00<00:01,  1.33it/s]Loading checkpoint shards:  67%|██████▋   | 2/3 [00:01<00:00,  1.34it/s]Loading checkpoint shards: 100%|██████████| 3/3 [00:02<00:00,  1.41it/s]Loading checkpoint shards: 100%|██████████| 3/3 [00:02<00:00,  1.39it/s]
Loading candidate model 16/16: Llama-3.2-3B-math-R3
Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]Loading checkpoint shards:  33%|███▎      | 1/3 [00:00<00:01,  1.34it/s]Loading checkpoint shards:  67%|██████▋   | 2/3 [00:01<00:00,  1.32it/s]Loading checkpoint shards: 100%|██████████| 3/3 [00:02<00:00,  1.41it/s]Loading checkpoint shards: 100%|██████████| 3/3 [00:02<00:00,  1.39it/s]
Saving model to /zju_0038/yifyang/co-genai/Merging-Scaling-Law-main/models/merged/Llama-3B-cmb/task_arithmetic_16/sc0.1_r0/1-2-3-5-8-9-10-11-14-15-16-18-20-21-22-23
[2025-10-21 01:46:05,558] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[93m [WARNING] [0m async_io requires the dev libaio .so object and headers but these were not found.
[93m [WARNING] [0m async_io: please install the libaio-dev package with apt
[93m [WARNING] [0m If libaio is already installed (perhaps from source), try setting the CFLAGS and LDFLAGS environment variables to where it can be found.
[93m [WARNING] [0m Please specify the CUTLASS repo directory as environment variable $CUTLASS_PATH
[93m [WARNING] [0m sparse_attn requires a torch version >= 1.5 and < 2.0 but detected 2.3
[93m [WARNING] [0m using untested triton version (3.0.0), only 1.0.0 is known to be compatible
Base model is: /zju_0038/wyy/mergebench/models/Llama-3.2-3B
Models to be merged are: ['/zju_0038/yifyang/scripts/models/llama-instruct-3B-v2-algebra', '/zju_0038/yifyang/scripts/models/llama-instruct-3B-v2-analysis', '/zju_0038/yifyang/scripts/models/llama-instruct-3B-v2-number_theory', '/zju_0038/yifyang/scripts/models/llama-instruct-3B-v2-discrete', '/zju_0038/yifyang/scripts/models/llama-instruct-3B-v2-biology', '/zju_0038/yifyang/scripts/models/llama-3.2-Korean-Bllossom-3B', '/zju_0038/yifyang/scripts/models/llama-instruct-3B-v2-code', '/zju_0038/yifyang/scripts/models/Llama-3.2-3B-Instruct-tuned', '/zju_0038/yifyang/scripts/models/Llama3.2-3B-ShiningValiant2', '/zju_0038/yifyang/scripts/models/FineMath-Llama-3B', '/zju_0038/yifyang/scripts/models/Llama-3.2-3B_MATH_lisa', '/zju_0038/yifyang/scripts/models/saves_llama3.2_3b_origianl_MATH_training_rewrite_common_normal', '/zju_0038/yifyang/scripts/models/GSM8K-Binary_Llama-3.2-3B-ihl420el', '/zju_0038/yifyang/scripts/models/saves_llama3.2_3b_origianl_MATH_training_rewrite_common_shorter_8b', '/zju_0038/yifyang/scripts/models/Llama-3.2-3B-math-SFT', '/zju_0038/yifyang/scripts/models/Llama-3.2-3B-math-R3']
Scaling coefficient is 0.1
Merging conducted on cpu
Loading base model in offline mode...
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  9.66it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00, 10.80it/s]
Loading tokenizer in offline mode...
Loading candidate model 1/16: llama-instruct-3B-v2-algebra
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  6.72it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  7.88it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  7.67it/s]
Loading candidate model 2/16: llama-instruct-3B-v2-analysis
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  7.93it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  8.39it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  8.31it/s]
Loading candidate model 3/16: llama-instruct-3B-v2-number_theory
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  6.50it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  7.43it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  7.27it/s]
Loading candidate model 4/16: llama-instruct-3B-v2-discrete
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  7.86it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  8.51it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  8.39it/s]
Loading candidate model 5/16: llama-instruct-3B-v2-biology
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  7.76it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  8.37it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  8.27it/s]
Loading candidate model 6/16: llama-3.2-Korean-Bllossom-3B
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  7.15it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  7.96it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  7.82it/s]
Loading candidate model 7/16: llama-instruct-3B-v2-code
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  7.54it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  7.74it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  7.70it/s]
Loading candidate model 8/16: Llama-3.2-3B-Instruct-tuned
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  7.15it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  7.82it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  7.70it/s]
Loading candidate model 9/16: Llama3.2-3B-ShiningValiant2
Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]Loading checkpoint shards:  33%|███▎      | 1/3 [00:00<00:01,  1.29it/s]Loading checkpoint shards:  67%|██████▋   | 2/3 [00:01<00:00,  1.33it/s]Loading checkpoint shards: 100%|██████████| 3/3 [00:02<00:00,  1.57it/s]Loading checkpoint shards: 100%|██████████| 3/3 [00:02<00:00,  1.49it/s]
`rope_scaling`'s original_max_position_embeddings field must be less than max_position_embeddings, got 8192 and max_position_embeddings=4096
Loading candidate model 10/16: FineMath-Llama-3B
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  6.93it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  7.57it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  7.46it/s]
Loading candidate model 11/16: Llama-3.2-3B_MATH_lisa
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  7.04it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  7.48it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  7.41it/s]
Loading candidate model 12/16: saves_llama3.2_3b_origianl_MATH_training_rewrite_common_normal
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  6.96it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  7.43it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  7.35it/s]
Loading candidate model 13/16: GSM8K-Binary_Llama-3.2-3B-ihl420el
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  6.82it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  7.24it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  7.17it/s]
Loading candidate model 14/16: saves_llama3.2_3b_origianl_MATH_training_rewrite_common_shorter_8b
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  6.59it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  7.07it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  6.99it/s]
Loading candidate model 15/16: Llama-3.2-3B-math-SFT
Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]Loading checkpoint shards:  33%|███▎      | 1/3 [00:00<00:01,  1.39it/s]Loading checkpoint shards:  67%|██████▋   | 2/3 [00:01<00:00,  1.35it/s]Loading checkpoint shards: 100%|██████████| 3/3 [00:02<00:00,  1.42it/s]Loading checkpoint shards: 100%|██████████| 3/3 [00:02<00:00,  1.40it/s]
Loading candidate model 16/16: Llama-3.2-3B-math-R3
Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]Loading checkpoint shards:  33%|███▎      | 1/3 [00:00<00:01,  1.21it/s]Loading checkpoint shards:  67%|██████▋   | 2/3 [00:01<00:00,  1.28it/s]Loading checkpoint shards: 100%|██████████| 3/3 [00:02<00:00,  1.38it/s]Loading checkpoint shards: 100%|██████████| 3/3 [00:02<00:00,  1.35it/s]
Saving model to /zju_0038/yifyang/co-genai/Merging-Scaling-Law-main/models/merged/Llama-3B-cmb/task_arithmetic_16/sc0.1_r0/1-2-3-5-8-9-10-11-14-15-16-18-20-21-22-23
[2025-10-21 01:47:16,498] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[93m [WARNING] [0m async_io requires the dev libaio .so object and headers but these were not found.
[93m [WARNING] [0m async_io: please install the libaio-dev package with apt
[93m [WARNING] [0m If libaio is already installed (perhaps from source), try setting the CFLAGS and LDFLAGS environment variables to where it can be found.
[93m [WARNING] [0m Please specify the CUTLASS repo directory as environment variable $CUTLASS_PATH
[93m [WARNING] [0m sparse_attn requires a torch version >= 1.5 and < 2.0 but detected 2.3
[93m [WARNING] [0m using untested triton version (3.0.0), only 1.0.0 is known to be compatible