diff --git "a/checkpoints/math_operations/lora_sft_primitive_atomic_50k/debug.log" "b/checkpoints/math_operations/lora_sft_primitive_atomic_50k/debug.log"
new file mode 100644--- /dev/null
+++ "b/checkpoints/math_operations/lora_sft_primitive_atomic_50k/debug.log"
@@ -0,0 +1,1047 @@
+[2026-02-25 23:18:39,663] [DEBUG] [axolotl.utils.config.resolve_dtype:66] [PID:2758243] bf16 support detected, enabling for this configuration.
+[2026-02-25 23:18:39,668] [DEBUG] [axolotl.utils.config.log_gpu_memory_usage:127] [PID:2758243] baseline 0.000GB ()
+[2026-02-25 23:18:39,669] [INFO] [axolotl.cli.config.load_cfg:259] [PID:2758243] config:
+{
+  "activation_offloading": false,
+  "adapter": "lora",
+  "axolotl_config_path": "/home/jiaruil5/math_rl/mix_teachers/mix_teachers/train/math_operations_sft/configs/primitive_atomic_balanced_sft_50k.yaml",
+  "base_model": "/home/jiaruil5/math_rl/mix_teachers/r3lit_rl/models/Qwen/Qwen3-4B-Instruct-2507",
+  "base_model_config": "/home/jiaruil5/math_rl/mix_teachers/r3lit_rl/models/Qwen/Qwen3-4B-Instruct-2507",
+  "batch_size": 8,
+  "bf16": true,
+  "capabilities": {
+    "bf16": true,
+    "compute_capability": "sm_86",
+    "fp8": false,
+    "n_gpu": 1,
+    "n_node": 1
+  },
+  "chat_template": "chatml",
+  "context_parallel_size": 1,
+  "dataloader_num_workers": 1,
+  "dataloader_pin_memory": true,
+  "dataloader_prefetch_factor": 256,
+  "dataset_num_proc": 16,
+  "datasets": [
+    {
+      "message_property_mappings": {
+        "content": "content",
+        "role": "role"
+      },
+      "path": "/home/jiaruil5/math_rl/mix_teachers/r3lit_rl/mix_teachers/data/math_operations/primitive_atomic_balanced_sft_50k/balanced_train_alpaca.jsonl",
+      "trust_remote_code": false,
+      "type": "alpaca"
+    }
+  ],
+  "ddp": false,
+  "device": "cuda:0",
+  "device_map": "auto",
+  "dion_rank_fraction": 1.0,
+  "dion_rank_multiple_of": 1,
+  "eaft_alpha": 1.0,
+  "eaft_k": 20,
+  "env_capabilities": {
+    "torch_version": "2.8.0"
+  },
+  "eval_batch_size": 2,
+  "eval_causal_lm_metrics": [
+    "sacrebleu",
+    "comet",
+    "ter",
+    "chrf"
+  ],
+  "eval_max_new_tokens": 128,
+  "eval_sample_packing": true,
+  "eval_steps": 0.1,
+  "eval_table_size": 0,
+  "evals_per_epoch": 2,
+  "experimental_skip_move_to_device": true,
+  "flash_attention": true,
+  "fp16": false,
+  "gradient_accumulation_steps": 4,
+  "gradient_checkpointing": true,
+  "gradient_checkpointing_kwargs": {
+    "use_reentrant": false
+  },
+  "include_tkps": true,
+  "learning_rate": 0.0002,
+  "lisa_layers_attribute": "model.layers",
+  "load_best_model_at_end": false,
+  "load_in_4bit": false,
+  "load_in_8bit": false,
+  "local_rank": 0,
+  "logging_steps": 10,
+  "lora_alpha": 64,
+  "lora_dropout": 0.05,
+  "lora_r": 32,
+  "lora_target_linear": true,
+  "loraplus_lr_embedding": 1e-06,
+  "lr_scheduler": "cosine",
+  "mean_resizing_embeddings": false,
+  "micro_batch_size": 2,
+  "model_config_type": "qwen3",
+  "num_epochs": 5.0,
+  "optimizer": "adamw_torch_fused",
+  "otel_metrics_host": "localhost",
+  "otel_metrics_port": 8000,
+  "output_dir": "/home/jiaruil5/math_rl/mix_teachers/r3lit_rl/mix_teachers/checkpoints/math_operations/primitive_atomic_balanced_sft_50k",
+  "pad_to_sequence_len": true,
+  "pretrain_multipack_attn": true,
+  "profiler_steps_start": 0,
+  "qlora_sharded_model_loading": false,
+  "ray_num_workers": 1,
+  "resources_per_worker": {
+    "GPU": 1
+  },
+  "sample_packing": true,
+  "sample_packing_bin_size": 200,
+  "sample_packing_group_size": 100000,
+  "save_only_model": false,
+  "save_safetensors": true,
+  "save_steps": 0.2,
+  "saves_per_epoch": 1,
+  "sequence_len": 2048,
+  "shuffle_before_merging_datasets": false,
+  "shuffle_merged_datasets": true,
+  "skip_prepare_dataset": false,
+  "streaming_multipack_buffer_size": 10000,
+  "strict": false,
+  "tensor_parallel_size": 1,
+  "test_datasets": [
+    {
+      "message_property_mappings": {
+        "content": "content",
+        "role": "role"
+      },
+      "path": "/home/jiaruil5/math_rl/mix_teachers/r3lit_rl/mix_teachers/data/math_operations/primitive_atomic_balanced_sft_50k/balanced_val_alpaca.jsonl",
+      "trust_remote_code": false,
+      "type": "alpaca"
+    }
+  ],
+  "tf32": true,
+  "tiled_mlp_use_original_mlp": true,
+  "tokenizer_config": "/home/jiaruil5/math_rl/mix_teachers/r3lit_rl/models/Qwen/Qwen3-4B-Instruct-2507",
+  "tokenizer_save_jinja_files": true,
+  "torch_dtype": "torch.bfloat16",
+  "train_on_inputs": false,
+  "trl": {
+    "log_completions": false,
+    "mask_truncated_completions": false,
+    "ref_model_mixup_alpha": 0.9,
+    "ref_model_sync_steps": 64,
+    "scale_rewards": true,
+    "sync_ref_model": false,
+    "use_vllm": false,
+    "vllm_server_host": "0.0.0.0",
+    "vllm_server_port": 8000
+  },
+  "use_otel_metrics": false,
+  "use_ray": false,
+  "use_wandb": true,
+  "val_set_size": 0.0,
+  "vllm": {
+    "device": "auto",
+    "dtype": "auto",
+    "gpu_memory_utilization": 0.9,
+    "host": "0.0.0.0",
+    "port": 8000
+  },
+  "wandb_log_model": "false",
+  "wandb_name": "qwen3-4b-primitive-atomic-balanced-lora-sft-50k",
+  "wandb_project": "math_operations_sft",
+  "warmup_ratio": 0.1,
+  "weight_decay": 0.01,
+  "world_size": 1
+}
+[2026-02-25 23:18:39,671] [WARNING] [axolotl.cli.checks.check_user_token:46] [PID:2758243] Error verifying HuggingFace token. Remember to log in using `hf auth login` and get your access token from https://huggingface.co/settings/tokens if you want to use gated models or datasets.
+[2026-02-25 23:18:41,188] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:285] [PID:2758243] EOS: 151645 / <|im_end|>
+[2026-02-25 23:18:41,188] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:286] [PID:2758243] BOS: None / None
+[2026-02-25 23:18:41,188] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:287] [PID:2758243] PAD: 151643 / <|endoftext|>
+[2026-02-25 23:18:41,188] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:288] [PID:2758243] UNK: None / None
+[2026-02-25 23:18:41,190] [INFO] [axolotl.utils.data.shared.load_preprocessed_dataset:481] [PID:2758243] Unable to find prepared dataset in last_run_prepared/c5b2dcf69e91df42a1bb115dcc61090d
+[2026-02-25 23:18:41,190] [INFO] [axolotl.utils.data.sft._load_raw_datasets:320] [PID:2758243] Loading raw datasets...
+[2026-02-25 23:18:41,190] [WARNING] [axolotl.utils.data.sft._load_raw_datasets:322] [PID:2758243] Processing datasets during training can lead to VRAM instability. Please pre-process your dataset using `axolotl preprocess path/to/config.yml`.
+[2026-02-25 23:18:41,383] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:2758243] Loading dataset: /home/jiaruil5/math_rl/mix_teachers/r3lit_rl/mix_teachers/data/math_operations/primitive_atomic_balanced_sft_50k/balanced_train_alpaca.jsonl with base_type: alpaca and prompt_style: None
+Tokenizing Prompts (num_proc=16):   0%|          | 0/50000 [00:00<?, ? examples/s]Tokenizing Prompts (num_proc=16):   0%|          | 47/50000 [00:03<1:00:23, 13.79 examples/s]Tokenizing Prompts (num_proc=16):   0%|          | 143/50000 [00:03<16:01, 51.84 examples/s] Tokenizing Prompts (num_proc=16):   1%|          | 287/50000 [00:03<06:41, 123.83 examples/s]Tokenizing Prompts (num_proc=16):   1%|          | 375/50000 [00:03<04:40, 176.84 examples/s]Tokenizing Prompts (num_proc=16):   1%|          | 465/50000 [00:03<03:24, 242.32 examples/s]Tokenizing Prompts (num_proc=16):   1%|          | 556/50000 [00:03<02:35, 318.72 examples/s]Tokenizing Prompts (num_proc=16):   1%|▏         | 649/50000 [00:04<02:01, 404.65 examples/s]Tokenizing Prompts (num_proc=16):   1%|▏         | 743/50000 [00:04<01:39, 493.52 examples/s]Tokenizing Prompts (num_proc=16):   2%|▏         | 837/50000 [00:04<01:24, 579.09 examples/s]Tokenizing Prompts (num_proc=16):   2%|▏         | 929/50000 [00:04<01:15, 650.99 examples/s]Tokenizing Prompts (num_proc=16):   2%|▏         | 1048/50000 [00:04<01:28, 554.20 examples/s]Tokenizing Prompts (num_proc=16):   2%|▏         | 1146/50000 [00:04<01:16, 635.25 examples/s]Tokenizing Prompts (num_proc=16):   2%|▏         | 1233/50000 [00:04<01:11, 682.95 examples/s]Tokenizing Prompts (num_proc=16):   3%|▎         | 1328/50000 [00:04<01:10, 687.26 examples/s]Tokenizing Prompts (num_proc=16):   3%|▎         | 1462/50000 [00:05<00:59, 811.83 examples/s]Tokenizing Prompts (num_proc=16):   3%|▎         | 1557/50000 [00:05<00:57, 844.15 examples/s]Tokenizing Prompts (num_proc=16):   3%|▎         | 1649/50000 [00:05<00:55, 863.43 examples/s]Tokenizing Prompts (num_proc=16):   4%|▎         | 1788/50000 [00:05<00:54, 879.72 examples/s]Tokenizing Prompts (num_proc=16):   4%|▍         | 1880/50000 [00:05<00:54, 887.78 examples/s]Tokenizing Prompts (num_proc=16):   4%|▍         | 1975/50000 [00:05<00:53, 902.26 examples/s]Tokenizing Prompts (num_proc=16):   4%|▍         | 2089/50000 [00:05<01:00, 794.05 examples/s]Tokenizing Prompts (num_proc=16):   5%|▍         | 2268/50000 [00:05<00:46, 1033.93 examples/s]Tokenizing Prompts (num_proc=16):   5%|▍         | 2453/50000 [00:06<00:38, 1237.77 examples/s]Tokenizing Prompts (num_proc=16):   5%|▌         | 2641/50000 [00:06<00:34, 1387.41 examples/s]Tokenizing Prompts (num_proc=16):   6%|▌         | 2883/50000 [00:06<00:29, 1616.79 examples/s]Tokenizing Prompts (num_proc=16):   6%|▌         | 3108/50000 [00:06<00:28, 1630.52 examples/s]Tokenizing Prompts (num_proc=16):   7%|▋         | 3299/50000 [00:06<00:27, 1700.44 examples/s]Tokenizing Prompts (num_proc=16):   7%|▋         | 3484/50000 [00:06<00:26, 1733.03 examples/s]Tokenizing Prompts (num_proc=16):   7%|▋         | 3662/50000 [00:06<00:26, 1740.44 examples/s]Tokenizing Prompts (num_proc=16):   8%|▊         | 3839/50000 [00:06<00:26, 1742.01 examples/s]Tokenizing Prompts (num_proc=16):   8%|▊         | 4046/50000 [00:07<00:35, 1288.30 examples/s]Tokenizing Prompts (num_proc=16):   8%|▊         | 4228/50000 [00:07<00:33, 1359.23 examples/s]Tokenizing Prompts (num_proc=16):   9%|▉         | 4408/50000 [00:07<00:31, 1458.59 examples/s]Tokenizing Prompts (num_proc=16):   9%|▉         | 4597/50000 [00:07<00:36, 1236.84 examples/s]Tokenizing Prompts (num_proc=16):   9%|▉         | 4739/50000 [00:07<00:37, 1193.63 examples/s]Tokenizing Prompts (num_proc=16):  10%|▉         | 4878/50000 [00:07<00:40, 1106.82 examples/s]Tokenizing Prompts (num_proc=16):  10%|█         | 5017/50000 [00:07<00:42, 1048.09 examples/s]Tokenizing Prompts (num_proc=16):  10%|█         | 5175/50000 [00:08<00:57, 779.59 examples/s] Tokenizing Prompts (num_proc=16):  11%|█         | 5311/50000 [00:08<00:50, 878.42 examples/s]Tokenizing Prompts (num_proc=16):  11%|█         | 5498/50000 [00:08<00:41, 1073.68 examples/s]Tokenizing Prompts (num_proc=16):  11%|█▏        | 5681/50000 [00:08<00:35, 1238.71 examples/s]Tokenizing Prompts (num_proc=16):  12%|█▏        | 5853/50000 [00:08<00:32, 1352.50 examples/s]Tokenizing Prompts (num_proc=16):  12%|█▏        | 6024/50000 [00:08<00:30, 1438.48 examples/s]Tokenizing Prompts (num_proc=16):  12%|█▏        | 6203/50000 [00:08<00:28, 1525.53 examples/s]Tokenizing Prompts (num_proc=16):  13%|█▎        | 6378/50000 [00:08<00:27, 1580.18 examples/s]Tokenizing Prompts (num_proc=16):  13%|█▎        | 6559/50000 [00:09<00:26, 1641.78 examples/s]Tokenizing Prompts (num_proc=16):  13%|█▎        | 6738/50000 [00:09<00:25, 1678.17 examples/s]Tokenizing Prompts (num_proc=16):  14%|█▍        | 6924/50000 [00:09<00:24, 1724.15 examples/s]Tokenizing Prompts (num_proc=16):  14%|█▍        | 7104/50000 [00:09<00:30, 1415.14 examples/s]Tokenizing Prompts (num_proc=16):  15%|█▍        | 7290/50000 [00:09<00:39, 1086.78 examples/s]Tokenizing Prompts (num_proc=16):  15%|█▍        | 7429/50000 [00:09<00:44, 946.47 examples/s] Tokenizing Prompts (num_proc=16):  15%|█▌        | 7616/50000 [00:09<00:38, 1089.24 examples/s]Tokenizing Prompts (num_proc=16):  15%|█▌        | 7749/50000 [00:10<00:41, 1028.92 examples/s]Tokenizing Prompts (num_proc=16):  16%|█▌        | 7893/50000 [00:10<00:41, 1004.13 examples/s]Tokenizing Prompts (num_proc=16):  16%|█▌        | 8037/50000 [00:10<00:42, 988.37 examples/s] Tokenizing Prompts (num_proc=16):  16%|█▋        | 8176/50000 [00:10<00:43, 966.08 examples/s]Tokenizing Prompts (num_proc=16):  17%|█▋        | 8305/50000 [00:10<00:41, 999.68 examples/s]Tokenizing Prompts (num_proc=16):  17%|█▋        | 8428/50000 [00:10<00:40, 1015.89 examples/s]Tokenizing Prompts (num_proc=16):  17%|█▋        | 8615/50000 [00:10<00:33, 1219.40 examples/s]Tokenizing Prompts (num_proc=16):  18%|█▊        | 8846/50000 [00:11<00:29, 1372.68 examples/s]Tokenizing Prompts (num_proc=16):  18%|█▊        | 9082/50000 [00:11<00:26, 1565.34 examples/s]Tokenizing Prompts (num_proc=16):  19%|█▊        | 9270/50000 [00:11<00:24, 1636.31 examples/s]Tokenizing Prompts (num_proc=16):  19%|█▉        | 9505/50000 [00:11<00:24, 1667.00 examples/s]Tokenizing Prompts (num_proc=16):  19%|█▉        | 9684/50000 [00:11<00:23, 1691.51 examples/s]Tokenizing Prompts (num_proc=16):  20%|█▉        | 9859/50000 [00:11<00:23, 1702.18 examples/s]Tokenizing Prompts (num_proc=16):  20%|██        | 10037/50000 [00:11<00:23, 1715.07 examples/s]Tokenizing Prompts (num_proc=16):  20%|██        | 10227/50000 [00:11<00:26, 1492.04 examples/s]Tokenizing Prompts (num_proc=16):  21%|██        | 10388/50000 [00:12<00:30, 1281.36 examples/s]Tokenizing Prompts (num_proc=16):  21%|██        | 10571/50000 [00:12<00:28, 1405.61 examples/s]Tokenizing Prompts (num_proc=16):  21%|██▏       | 10741/50000 [00:12<00:35, 1111.63 examples/s]Tokenizing Prompts (num_proc=16):  22%|██▏       | 10970/50000 [00:12<00:30, 1275.73 examples/s]Tokenizing Prompts (num_proc=16):  22%|██▏       | 11145/50000 [00:12<00:34, 1128.01 examples/s]Tokenizing Prompts (num_proc=16):  23%|██▎       | 11283/50000 [00:12<00:36, 1064.45 examples/s]Tokenizing Prompts (num_proc=16):  23%|██▎       | 11418/50000 [00:13<00:47, 809.46 examples/s] Tokenizing Prompts (num_proc=16):  23%|██▎       | 11609/50000 [00:13<00:38, 1004.02 examples/s]Tokenizing Prompts (num_proc=16):  24%|██▎       | 11806/50000 [00:13<00:31, 1194.87 examples/s]Tokenizing Prompts (num_proc=16):  24%|██▍       | 11997/50000 [00:13<00:28, 1352.61 examples/s]Tokenizing Prompts (num_proc=16):  24%|██▍       | 12184/50000 [00:13<00:25, 1470.28 examples/s]Tokenizing Prompts (num_proc=16):  25%|██▍       | 12361/50000 [00:13<00:24, 1544.81 examples/s]Tokenizing Prompts (num_proc=16):  25%|██▌       | 12537/50000 [00:13<00:23, 1596.79 examples/s]Tokenizing Prompts (num_proc=16):  25%|██▌       | 12727/50000 [00:13<00:22, 1674.28 examples/s]Tokenizing Prompts (num_proc=16):  26%|██▌       | 12914/50000 [00:13<00:21, 1725.55 examples/s]Tokenizing Prompts (num_proc=16):  26%|██▋       | 13135/50000 [00:14<00:20, 1766.73 examples/s]Tokenizing Prompts (num_proc=16):  27%|██▋       | 13348/50000 [00:14<00:28, 1272.57 examples/s]Tokenizing Prompts (num_proc=16):  27%|██▋       | 13513/50000 [00:14<00:27, 1350.37 examples/s]Tokenizing Prompts (num_proc=16):  27%|██▋       | 13681/50000 [00:14<00:27, 1323.71 examples/s]Tokenizing Prompts (num_proc=16):  28%|██▊       | 13865/50000 [00:14<00:33, 1065.73 examples/s]Tokenizing Prompts (num_proc=16):  28%|██▊       | 14056/50000 [00:14<00:30, 1183.98 examples/s]Tokenizing Prompts (num_proc=16):  28%|██▊       | 14195/50000 [00:15<00:32, 1106.25 examples/s]Tokenizing Prompts (num_proc=16):  29%|██▊       | 14335/50000 [00:15<00:33, 1053.27 examples/s]Tokenizing Prompts (num_proc=16):  29%|██▉       | 14479/50000 [00:15<00:34, 1023.66 examples/s]Tokenizing Prompts (num_proc=16):  29%|██▉       | 14630/50000 [00:15<00:42, 825.12 examples/s] Tokenizing Prompts (num_proc=16):  30%|██▉       | 14812/50000 [00:15<00:34, 1009.10 examples/s]Tokenizing Prompts (num_proc=16):  30%|██▉       | 14997/50000 [00:15<00:29, 1183.21 examples/s]Tokenizing Prompts (num_proc=16):  30%|███       | 15219/50000 [00:16<00:26, 1313.00 examples/s]Tokenizing Prompts (num_proc=16):  31%|███       | 15393/50000 [00:16<00:24, 1407.03 examples/s]Tokenizing Prompts (num_proc=16):  31%|███       | 15624/50000 [00:16<00:21, 1599.44 examples/s]Tokenizing Prompts (num_proc=16):  32%|███▏      | 15814/50000 [00:16<00:20, 1636.15 examples/s]Tokenizing Prompts (num_proc=16):  32%|███▏      | 16001/50000 [00:16<00:20, 1694.09 examples/s]Tokenizing Prompts (num_proc=16):  32%|███▏      | 16212/50000 [00:16<00:20, 1647.50 examples/s]Tokenizing Prompts (num_proc=16):  33%|███▎      | 16395/50000 [00:16<00:19, 1692.80 examples/s]Tokenizing Prompts (num_proc=16):  33%|███▎      | 16591/50000 [00:16<00:24, 1342.88 examples/s]Tokenizing Prompts (num_proc=16):  34%|███▎      | 16758/50000 [00:17<00:28, 1171.88 examples/s]Tokenizing Prompts (num_proc=16):  34%|███▍      | 16900/50000 [00:17<00:32, 1014.91 examples/s]Tokenizing Prompts (num_proc=16):  34%|███▍      | 17045/50000 [00:17<00:30, 1087.06 examples/s]Tokenizing Prompts (num_proc=16):  34%|███▍      | 17185/50000 [00:17<00:31, 1038.16 examples/s]Tokenizing Prompts (num_proc=16):  35%|███▍      | 17326/50000 [00:17<00:32, 1005.14 examples/s]Tokenizing Prompts (num_proc=16):  35%|███▍      | 17469/50000 [00:17<00:33, 985.41 examples/s] Tokenizing Prompts (num_proc=16):  35%|███▌      | 17608/50000 [00:18<00:33, 965.84 examples/s]Tokenizing Prompts (num_proc=16):  35%|███▌      | 17733/50000 [00:18<00:33, 955.22 examples/s]Tokenizing Prompts (num_proc=16):  36%|███▌      | 17891/50000 [00:18<00:29, 1092.99 examples/s]Tokenizing Prompts (num_proc=16):  36%|███▌      | 18083/50000 [00:18<00:24, 1288.45 examples/s]Tokenizing Prompts (num_proc=16):  37%|███▋      | 18320/50000 [00:18<00:21, 1441.47 examples/s]Tokenizing Prompts (num_proc=16):  37%|███▋      | 18503/50000 [00:18<00:20, 1537.56 examples/s]Tokenizing Prompts (num_proc=16):  37%|███▋      | 18683/50000 [00:18<00:19, 1603.20 examples/s]Tokenizing Prompts (num_proc=16):  38%|███▊      | 18863/50000 [00:18<00:18, 1655.35 examples/s]Tokenizing Prompts (num_proc=16):  38%|███▊      | 19049/50000 [00:18<00:18, 1707.96 examples/s]Tokenizing Prompts (num_proc=16):  38%|███▊      | 19235/50000 [00:18<00:17, 1747.97 examples/s]Tokenizing Prompts (num_proc=16):  39%|███▉      | 19418/50000 [00:19<00:17, 1765.07 examples/s]Tokenizing Prompts (num_proc=16):  39%|███▉      | 19633/50000 [00:19<00:21, 1399.83 examples/s]Tokenizing Prompts (num_proc=16):  40%|███▉      | 19815/50000 [00:19<00:22, 1335.85 examples/s]Tokenizing Prompts (num_proc=16):  40%|███▉      | 19999/50000 [00:19<00:20, 1449.14 examples/s]Tokenizing Prompts (num_proc=16):  40%|████      | 20167/50000 [00:19<00:22, 1302.45 examples/s]Tokenizing Prompts (num_proc=16):  41%|████      | 20351/50000 [00:19<00:25, 1175.83 examples/s]Tokenizing Prompts (num_proc=16):  41%|████      | 20488/50000 [00:20<00:26, 1096.51 examples/s]Tokenizing Prompts (num_proc=16):  41%|████      | 20622/50000 [00:20<00:28, 1035.70 examples/s]Tokenizing Prompts (num_proc=16):  42%|████▏     | 20750/50000 [00:20<00:37, 786.26 examples/s] Tokenizing Prompts (num_proc=16):  42%|████▏     | 20847/50000 [00:20<00:35, 818.49 examples/s]Tokenizing Prompts (num_proc=16):  42%|████▏     | 20946/50000 [00:20<00:34, 851.72 examples/s]Tokenizing Prompts (num_proc=16):  42%|████▏     | 21046/50000 [00:20<00:33, 873.33 examples/s]Tokenizing Prompts (num_proc=16):  42%|████▏     | 21192/50000 [00:20<00:31, 913.40 examples/s]Tokenizing Prompts (num_proc=16):  43%|████▎     | 21334/50000 [00:21<00:31, 920.34 examples/s]Tokenizing Prompts (num_proc=16):  43%|████▎     | 21476/50000 [00:21<00:31, 915.54 examples/s]Tokenizing Prompts (num_proc=16):  43%|████▎     | 21629/50000 [00:21<00:29, 956.58 examples/s]Tokenizing Prompts (num_proc=16):  44%|████▎     | 21750/50000 [00:21<00:39, 718.37 examples/s]Tokenizing Prompts (num_proc=16):  44%|████▎     | 21849/50000 [00:21<00:36, 768.80 examples/s]Tokenizing Prompts (num_proc=16):  44%|████▍     | 21961/50000 [00:24<03:55, 119.25 examples/s]Tokenizing Prompts (num_proc=16):  44%|████▍     | 22179/50000 [00:24<02:17, 202.66 examples/s]Tokenizing Prompts (num_proc=16):  45%|████▍     | 22355/50000 [00:24<01:35, 288.07 examples/s]Tokenizing Prompts (num_proc=16):  45%|████▌     | 22531/50000 [00:25<01:09, 395.11 examples/s]Tokenizing Prompts (num_proc=16):  46%|████▌     | 22791/50000 [00:25<00:45, 599.98 examples/s]Tokenizing Prompts (num_proc=16):  46%|████▌     | 23100/50000 [00:25<00:30, 884.01 examples/s]Tokenizing Prompts (num_proc=16):  47%|████▋     | 23371/50000 [00:25<00:23, 1137.63 examples/s]Tokenizing Prompts (num_proc=16):  47%|████▋     | 23641/50000 [00:25<00:18, 1400.20 examples/s]Tokenizing Prompts (num_proc=16):  48%|████▊     | 23911/50000 [00:25<00:15, 1650.83 examples/s]Tokenizing Prompts (num_proc=16):  48%|████▊     | 24224/50000 [00:25<00:13, 1947.13 examples/s]Tokenizing Prompts (num_proc=16):  49%|████▉     | 24487/50000 [00:25<00:12, 2075.08 examples/s]Tokenizing Prompts (num_proc=16):  50%|████▉     | 24770/50000 [00:26<00:14, 1788.72 examples/s]Tokenizing Prompts (num_proc=16):  50%|█████     | 25033/50000 [00:26<00:12, 1968.53 examples/s]Tokenizing Prompts (num_proc=16):  51%|█████     | 25294/50000 [00:26<00:12, 2022.28 examples/s]Tokenizing Prompts (num_proc=16):  51%|█████     | 25543/50000 [00:26<00:12, 1990.08 examples/s]Tokenizing Prompts (num_proc=16):  52%|█████▏    | 25815/50000 [00:26<00:11, 2165.08 examples/s]Tokenizing Prompts (num_proc=16):  52%|█████▏    | 26079/50000 [00:26<00:10, 2284.15 examples/s]Tokenizing Prompts (num_proc=16):  53%|█████▎    | 26343/50000 [00:26<00:09, 2374.51 examples/s]Tokenizing Prompts (num_proc=16):  53%|█████▎    | 26610/50000 [00:26<00:11, 2028.16 examples/s]Tokenizing Prompts (num_proc=16):  54%|█████▍    | 27093/50000 [00:26<00:08, 2701.03 examples/s]Tokenizing Prompts (num_proc=16):  55%|█████▍    | 27411/50000 [00:27<00:08, 2652.58 examples/s]Tokenizing Prompts (num_proc=16):  55%|█████▌    | 27721/50000 [00:27<00:10, 2119.47 examples/s]Tokenizing Prompts (num_proc=16):  56%|█████▌    | 27996/50000 [00:27<00:09, 2242.18 examples/s]Tokenizing Prompts (num_proc=16):  57%|█████▋    | 28267/50000 [00:27<00:09, 2312.94 examples/s]Tokenizing Prompts (num_proc=16):  57%|█████▋    | 28546/50000 [00:27<00:10, 2124.96 examples/s]Tokenizing Prompts (num_proc=16):  58%|█████▊    | 28859/50000 [00:27<00:09, 2283.06 examples/s]Tokenizing Prompts (num_proc=16):  58%|█████▊    | 29167/50000 [00:27<00:08, 2436.60 examples/s]Tokenizing Prompts (num_proc=16):  59%|█████▉    | 29522/50000 [00:27<00:07, 2657.66 examples/s]Tokenizing Prompts (num_proc=16):  60%|█████▉    | 29880/50000 [00:28<00:07, 2829.82 examples/s]Tokenizing Prompts (num_proc=16):  60%|██████    | 30193/50000 [00:28<00:06, 2876.63 examples/s]Tokenizing Prompts (num_proc=16):  61%|██████    | 30509/50000 [00:28<00:06, 2920.40 examples/s]Tokenizing Prompts (num_proc=16):  62%|██████▏   | 30878/50000 [00:28<00:06, 3052.22 examples/s]Tokenizing Prompts (num_proc=16):  62%|██████▏   | 31188/50000 [00:28<00:06, 2938.30 examples/s]Tokenizing Prompts (num_proc=16):  63%|██████▎   | 31500/50000 [00:28<00:06, 2938.59 examples/s]Tokenizing Prompts (num_proc=16):  64%|██████▎   | 31825/50000 [00:28<00:06, 2855.96 examples/s]Tokenizing Prompts (num_proc=16):  64%|██████▍   | 32140/50000 [00:28<00:07, 2268.76 examples/s]Tokenizing Prompts (num_proc=16):  65%|██████▍   | 32414/50000 [00:29<00:11, 1487.67 examples/s]Tokenizing Prompts (num_proc=16):  65%|██████▌   | 32615/50000 [00:29<00:12, 1399.68 examples/s]Tokenizing Prompts (num_proc=16):  66%|██████▌   | 32810/50000 [00:29<00:13, 1266.13 examples/s]Tokenizing Prompts (num_proc=16):  66%|██████▌   | 32998/50000 [00:29<00:14, 1164.27 examples/s]Tokenizing Prompts (num_proc=16):  66%|██████▋   | 33140/50000 [00:30<00:15, 1109.01 examples/s]Tokenizing Prompts (num_proc=16):  67%|██████▋   | 33293/50000 [00:30<00:19, 864.01 examples/s] Tokenizing Prompts (num_proc=16):  67%|██████▋   | 33396/50000 [00:30<00:18, 888.94 examples/s]Tokenizing Prompts (num_proc=16):  67%|██████▋   | 33545/50000 [00:30<00:18, 913.53 examples/s]Tokenizing Prompts (num_proc=16):  67%|██████▋   | 33688/50000 [00:30<00:17, 922.46 examples/s]Tokenizing Prompts (num_proc=16):  68%|██████▊   | 33787/50000 [00:30<00:17, 933.12 examples/s]Tokenizing Prompts (num_proc=16):  68%|██████▊   | 33933/50000 [00:31<00:16, 952.78 examples/s]Tokenizing Prompts (num_proc=16):  68%|██████▊   | 34078/50000 [00:31<00:16, 943.13 examples/s]Tokenizing Prompts (num_proc=16):  68%|██████▊   | 34187/50000 [00:31<00:22, 714.31 examples/s]Tokenizing Prompts (num_proc=16):  69%|██████▊   | 34306/50000 [00:33<01:46, 146.83 examples/s]Tokenizing Prompts (num_proc=16):  69%|██████▉   | 34419/50000 [00:34<01:39, 156.43 examples/s]Tokenizing Prompts (num_proc=16):  69%|██████▉   | 34599/50000 [00:34<01:04, 240.33 examples/s]Tokenizing Prompts (num_proc=16):  70%|██████▉   | 34825/50000 [00:34<00:40, 376.87 examples/s]Tokenizing Prompts (num_proc=16):  70%|███████   | 35133/50000 [00:34<00:24, 606.13 examples/s]Tokenizing Prompts (num_proc=16):  71%|███████   | 35395/50000 [00:34<00:17, 816.68 examples/s]Tokenizing Prompts (num_proc=16):  71%|███████▏  | 35699/50000 [00:35<00:12, 1108.65 examples/s]Tokenizing Prompts (num_proc=16):  72%|███████▏  | 35958/50000 [00:35<00:10, 1344.07 examples/s]Tokenizing Prompts (num_proc=16):  73%|███████▎  | 36273/50000 [00:35<00:08, 1661.27 examples/s]Tokenizing Prompts (num_proc=16):  73%|███████▎  | 36535/50000 [00:35<00:07, 1818.78 examples/s]Tokenizing Prompts (num_proc=16):  74%|███████▎  | 36801/50000 [00:35<00:06, 2001.69 examples/s]Tokenizing Prompts (num_proc=16):  74%|███████▍  | 37078/50000 [00:35<00:06, 2081.50 examples/s]Tokenizing Prompts (num_proc=16):  75%|███████▍  | 37346/50000 [00:35<00:06, 1976.88 examples/s]Tokenizing Prompts (num_proc=16):  75%|███████▌  | 37574/50000 [00:35<00:06, 1810.31 examples/s]Tokenizing Prompts (num_proc=16):  76%|███████▌  | 37802/50000 [00:36<00:06, 1891.89 examples/s]Tokenizing Prompts (num_proc=16):  76%|███████▌  | 38058/50000 [00:36<00:05, 2046.92 examples/s]Tokenizing Prompts (num_proc=16):  77%|███████▋  | 38379/50000 [00:36<00:05, 2245.48 examples/s]Tokenizing Prompts (num_proc=16):  77%|███████▋  | 38644/50000 [00:36<00:05, 1893.63 examples/s]Tokenizing Prompts (num_proc=16):  78%|███████▊  | 39170/50000 [00:36<00:04, 2615.14 examples/s]Tokenizing Prompts (num_proc=16):  79%|███████▉  | 39488/50000 [00:36<00:04, 2585.81 examples/s]Tokenizing Prompts (num_proc=16):  80%|███████▉  | 39803/50000 [00:36<00:03, 2612.09 examples/s]Tokenizing Prompts (num_proc=16):  80%|████████  | 40109/50000 [00:36<00:03, 2494.63 examples/s]Tokenizing Prompts (num_proc=16):  81%|████████  | 40382/50000 [00:37<00:04, 2307.37 examples/s]Tokenizing Prompts (num_proc=16):  81%|████████▏ | 40649/50000 [00:37<00:04, 1918.42 examples/s]Tokenizing Prompts (num_proc=16):  82%|████████▏ | 40987/50000 [00:37<00:04, 2213.78 examples/s]Tokenizing Prompts (num_proc=16):  83%|████████▎ | 41341/50000 [00:37<00:03, 2472.55 examples/s]Tokenizing Prompts (num_proc=16):  83%|████████▎ | 41696/50000 [00:37<00:03, 2642.86 examples/s]Tokenizing Prompts (num_proc=16):  84%|████████▍ | 42016/50000 [00:37<00:02, 2755.51 examples/s]Tokenizing Prompts (num_proc=16):  85%|████████▍ | 42418/50000 [00:37<00:02, 3016.01 examples/s]Tokenizing Prompts (num_proc=16):  86%|████████▌ | 42765/50000 [00:37<00:02, 3019.48 examples/s]Tokenizing Prompts (num_proc=16):  86%|████████▋ | 43160/50000 [00:38<00:02, 3144.93 examples/s]Tokenizing Prompts (num_proc=16):  87%|████████▋ | 43510/50000 [00:38<00:02, 2970.85 examples/s]Tokenizing Prompts (num_proc=16):  88%|████████▊ | 43816/50000 [00:38<00:02, 2922.58 examples/s]Tokenizing Prompts (num_proc=16):  88%|████████▊ | 44124/50000 [00:38<00:02, 2934.15 examples/s]Tokenizing Prompts (num_proc=16):  89%|████████▉ | 44457/50000 [00:38<00:02, 2316.87 examples/s]Tokenizing Prompts (num_proc=16):  90%|████████▉ | 44803/50000 [00:38<00:02, 2553.20 examples/s]Tokenizing Prompts (num_proc=16):  90%|█████████ | 45092/50000 [00:38<00:02, 1877.55 examples/s]Tokenizing Prompts (num_proc=16):  91%|█████████ | 45362/50000 [00:39<00:03, 1514.83 examples/s]Tokenizing Prompts (num_proc=16):  91%|█████████ | 45591/50000 [00:39<00:03, 1302.49 examples/s]Tokenizing Prompts (num_proc=16):  92%|█████████▏| 45782/50000 [00:39<00:03, 1235.00 examples/s]Tokenizing Prompts (num_proc=16):  92%|█████████▏| 45947/50000 [00:39<00:03, 1200.43 examples/s]Tokenizing Prompts (num_proc=16):  92%|█████████▏| 46121/50000 [00:39<00:02, 1298.79 examples/s]Tokenizing Prompts (num_proc=16):  93%|█████████▎| 46297/50000 [00:40<00:02, 1392.28 examples/s]Tokenizing Prompts (num_proc=16):  93%|█████████▎| 46483/50000 [00:40<00:02, 1493.96 examples/s]Tokenizing Prompts (num_proc=16):  93%|█████████▎| 46677/50000 [00:40<00:02, 1600.12 examples/s]Tokenizing Prompts (num_proc=16):  94%|█████████▎| 46866/50000 [00:40<00:01, 1673.95 examples/s]Tokenizing Prompts (num_proc=16):  94%|█████████▍| 47067/50000 [00:40<00:01, 1760.40 examples/s]Tokenizing Prompts (num_proc=16):  95%|█████████▍| 47267/50000 [00:40<00:01, 1822.32 examples/s]Tokenizing Prompts (num_proc=16):  95%|█████████▍| 47468/50000 [00:40<00:01, 1870.14 examples/s]Tokenizing Prompts (num_proc=16):  95%|█████████▌| 47687/50000 [00:40<00:01, 1539.57 examples/s]Tokenizing Prompts (num_proc=16):  96%|█████████▌| 47880/50000 [00:40<00:01, 1546.11 examples/s]Tokenizing Prompts (num_proc=16):  96%|█████████▌| 48076/50000 [00:41<00:01, 1463.21 examples/s]Tokenizing Prompts (num_proc=16):  97%|█████████▋| 48253/50000 [00:41<00:01, 1512.06 examples/s]Tokenizing Prompts (num_proc=16):  97%|█████████▋| 48448/50000 [00:41<00:01, 1304.77 examples/s]Tokenizing Prompts (num_proc=16):  97%|█████████▋| 48629/50000 [00:41<00:01, 1153.75 examples/s]Tokenizing Prompts (num_proc=16):  98%|█████████▊| 48779/50000 [00:41<00:01, 1105.40 examples/s]Tokenizing Prompts (num_proc=16):  98%|█████████▊| 48919/50000 [00:42<00:01, 837.14 examples/s] Tokenizing Prompts (num_proc=16):  98%|█████████▊| 49020/50000 [00:42<00:01, 865.84 examples/s]Tokenizing Prompts (num_proc=16):  98%|█████████▊| 49126/50000 [00:42<00:00, 902.88 examples/s]Tokenizing Prompts (num_proc=16):  98%|█████████▊| 49234/50000 [00:42<00:00, 940.62 examples/s]Tokenizing Prompts (num_proc=16):  99%|█████████▊| 49340/50000 [00:42<00:00, 968.46 examples/s]Tokenizing Prompts (num_proc=16):  99%|█████████▉| 49490/50000 [00:42<00:00, 974.14 examples/s]Tokenizing Prompts (num_proc=16):  99%|█████████▉| 49595/50000 [00:42<00:00, 991.01 examples/s]Tokenizing Prompts (num_proc=16):  99%|█████████▉| 49698/50000 [00:42<00:00, 998.41 examples/s]Tokenizing Prompts (num_proc=16): 100%|█████████▉| 49849/50000 [00:42<00:00, 997.08 examples/s]Tokenizing Prompts (num_proc=16): 100%|█████████▉| 49977/50000 [00:43<00:00, 758.31 examples/s]Tokenizing Prompts (num_proc=16): 100%|██████████| 50000/50000 [00:43<00:00, 1150.74 examples/s]
+[2026-02-25 23:19:27,306] [INFO] [axolotl.utils.data.utils.handle_long_seq_in_dataset:224] [PID:2758243] min_input_len: 257
+[2026-02-25 23:19:27,306] [INFO] [axolotl.utils.data.utils.handle_long_seq_in_dataset:226] [PID:2758243] max_input_len: 371
+Dropping Long Sequences (>2048) (num_proc=16):   0%|          | 0/50000 [00:00<?, ? examples/s]Dropping Long Sequences (>2048) (num_proc=16):   2%|▏         | 1000/50000 [00:00<00:26, 1819.65 examples/s]Dropping Long Sequences (>2048) (num_proc=16):   8%|▊         | 4000/50000 [00:00<00:06, 7026.62 examples/s]Dropping Long Sequences (>2048) (num_proc=16):  20%|██        | 10000/50000 [00:00<00:02, 18302.64 examples/s]Dropping Long Sequences (>2048) (num_proc=16):  28%|██▊       | 14000/50000 [00:00<00:01, 23301.27 examples/s]Dropping Long Sequences (>2048) (num_proc=16):  44%|████▍     | 22125/50000 [00:01<00:00, 35886.88 examples/s]Dropping Long Sequences (>2048) (num_proc=16):  55%|█████▍    | 27250/50000 [00:01<00:00, 38894.57 examples/s]Dropping Long Sequences (>2048) (num_proc=16):  65%|██████▍   | 32375/50000 [00:01<00:00, 36820.72 examples/s]Dropping Long Sequences (>2048) (num_proc=16):  80%|███████▉  | 39750/50000 [00:01<00:00, 45863.62 examples/s]Dropping Long Sequences (>2048) (num_proc=16):  94%|█████████▍| 47250/50000 [00:01<00:00, 53308.36 examples/s]Dropping Long Sequences (>2048) (num_proc=16): 100%|██████████| 50000/50000 [00:01<00:00, 28809.78 examples/s]
+Drop Samples with Zero Trainable Tokens (num_proc=16):   0%|          | 0/50000 [00:00<?, ? examples/s]Drop Samples with Zero Trainable Tokens (num_proc=16):   2%|▏         | 1000/50000 [00:00<00:35, 1382.48 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=16):  18%|█▊        | 9000/50000 [00:00<00:02, 14099.26 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=16):  30%|███       | 15000/50000 [00:00<00:01, 22450.17 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=16):  40%|████      | 20000/50000 [00:01<00:01, 27255.82 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=16):  50%|█████     | 25000/50000 [00:01<00:00, 29984.62 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=16):  64%|██████▍   | 32000/50000 [00:01<00:00, 39123.06 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=16):  75%|███████▍  | 37375/50000 [00:01<00:00, 38799.75 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=16):  89%|████████▉ | 44375/50000 [00:01<00:00, 46083.44 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=16): 100%|██████████| 50000/50000 [00:01<00:00, 28079.79 examples/s]
+Add position_id column (Sample Packing) (num_proc=16):   0%|          | 0/50000 [00:00<?, ? examples/s]Add position_id column (Sample Packing) (num_proc=16):   2%|▏         | 1000/50000 [00:00<00:37, 1321.98 examples/s]Add position_id column (Sample Packing) (num_proc=16):   6%|▌         | 3000/50000 [00:00<00:11, 4142.98 examples/s]Add position_id column (Sample Packing) (num_proc=16):  16%|█▌        | 8000/50000 [00:00<00:03, 12206.94 examples/s]Add position_id column (Sample Packing) (num_proc=16):  28%|██▊       | 14000/50000 [00:01<00:01, 18911.11 examples/s]Add position_id column (Sample Packing) (num_proc=16):  34%|███▍      | 17000/50000 [00:01<00:02, 15994.75 examples/s]Add position_id column (Sample Packing) (num_proc=16):  42%|████▏     | 21000/50000 [00:01<00:01, 19467.04 examples/s]Add position_id column (Sample Packing) (num_proc=16):  54%|█████▍    | 27000/50000 [00:01<00:00, 26593.59 examples/s]Add position_id column (Sample Packing) (num_proc=16):  62%|██████▏   | 31000/50000 [00:01<00:00, 25257.39 examples/s]Add position_id column (Sample Packing) (num_proc=16):  68%|██████▊   | 34250/50000 [00:02<00:00, 21006.94 examples/s]Add position_id column (Sample Packing) (num_proc=16):  77%|███████▋  | 38500/50000 [00:02<00:00, 24148.50 examples/s]Add position_id column (Sample Packing) (num_proc=16):  84%|████████▍ | 41875/50000 [00:02<00:00, 26059.16 examples/s]Add position_id column (Sample Packing) (num_proc=16):  95%|█████████▍| 47375/50000 [00:02<00:00, 31196.80 examples/s]Add position_id column (Sample Packing) (num_proc=16): 100%|██████████| 50000/50000 [00:02<00:00, 18200.12 examples/s]
+Saving the dataset (0/16 shards):   0%|          | 0/50000 [00:00<?, ? examples/s]Saving the dataset (0/16 shards):   6%|▋         | 3125/50000 [00:00<00:05, 7838.70 examples/s]Saving the dataset (1/16 shards):   6%|▋         | 3125/50000 [00:00<00:05, 7838.70 examples/s]Saving the dataset (2/16 shards):  19%|█▉        | 9375/50000 [00:00<00:05, 7838.70 examples/s]Saving the dataset (3/16 shards):  19%|█▉        | 9375/50000 [00:00<00:05, 7838.70 examples/s]Saving the dataset (4/16 shards):  42%|████▏     | 20750/50000 [00:00<00:03, 7838.70 examples/s]Saving the dataset (5/16 shards):  48%|████▊     | 23875/50000 [00:00<00:03, 7838.70 examples/s]Saving the dataset (6/16 shards):  48%|████▊     | 23875/50000 [00:00<00:03, 7838.70 examples/s]Saving the dataset (7/16 shards):  48%|████▊     | 23875/50000 [00:00<00:03, 7838.70 examples/s]Saving the dataset (8/16 shards):  82%|████████▏ | 41000/50000 [00:00<00:01, 7838.70 examples/s]Saving the dataset (8/16 shards):  91%|█████████ | 45500/50000 [00:00<00:00, 115559.83 examples/s]Saving the dataset (9/16 shards): 100%|██████████| 50000/50000 [00:00<00:00, 115559.83 examples/s]Saving the dataset (10/16 shards): 100%|██████████| 50000/50000 [00:00<00:00, 115559.83 examples/s]Saving the dataset (11/16 shards): 100%|██████████| 50000/50000 [00:00<00:00, 115559.83 examples/s]Saving the dataset (12/16 shards): 100%|██████████| 50000/50000 [00:00<00:00, 115559.83 examples/s]Saving the dataset (13/16 shards): 100%|██████████| 50000/50000 [00:00<00:00, 115559.83 examples/s]Saving the dataset (14/16 shards): 100%|██████████| 50000/50000 [00:00<00:00, 115559.83 examples/s]Saving the dataset (15/16 shards): 100%|██████████| 50000/50000 [00:00<00:00, 115559.83 examples/s]Saving the dataset (16/16 shards): 100%|██████████| 50000/50000 [00:00<00:00, 115559.83 examples/s]Saving the dataset (16/16 shards): 100%|██████████| 50000/50000 [00:00<00:00, 80166.76 examples/s] 
+[2026-02-25 23:19:34,496] [INFO] [axolotl.utils.data.shared.load_preprocessed_dataset:481] [PID:2758243] Unable to find prepared dataset in last_run_prepared/6ef0c0270a5f2e04de2b8e4deededd5a
+[2026-02-25 23:19:34,497] [INFO] [axolotl.utils.data.sft._load_raw_datasets:320] [PID:2758243] Loading raw datasets...
+[2026-02-25 23:19:34,497] [WARNING] [axolotl.utils.data.sft._load_raw_datasets:322] [PID:2758243] Processing datasets during training can lead to VRAM instability. Please pre-process your dataset using `axolotl preprocess path/to/config.yml`.
+[2026-02-25 23:19:34,609] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:2758243] Loading dataset: /home/jiaruil5/math_rl/mix_teachers/r3lit_rl/mix_teachers/data/math_operations/primitive_atomic_balanced_sft_50k/balanced_val_alpaca.jsonl with base_type: alpaca and prompt_style: None
+Tokenizing Prompts (num_proc=16):   0%|          | 0/200 [00:00<?, ? examples/s]Tokenizing Prompts (num_proc=16):   0%|          | 1/200 [00:06<22:32,  6.80s/ examples]Tokenizing Prompts (num_proc=16):  18%|█▊        | 37/200 [00:08<00:26,  6.08 examples/s]Tokenizing Prompts (num_proc=16):  20%|██        | 40/200 [00:14<01:01,  2.60 examples/s]Tokenizing Prompts (num_proc=16):  39%|███▉      | 78/200 [00:15<00:17,  7.17 examples/s]Tokenizing Prompts (num_proc=16):  46%|████▋     | 93/200 [00:23<00:26,  4.11 examples/s]Tokenizing Prompts (num_proc=16):  58%|█████▊    | 117/200 [00:29<00:21,  3.91 examples/s]Tokenizing Prompts (num_proc=16):  82%|████████▏ | 164/200 [00:31<00:05,  6.78 examples/s]Tokenizing Prompts (num_proc=16):  88%|████████▊ | 176/200 [00:34<00:03,  6.43 examples/s]Tokenizing Prompts (num_proc=16):  94%|█████████▍| 188/200 [00:36<00:01,  6.08 examples/s]Tokenizing Prompts (num_proc=16): 100%|██████████| 200/200 [00:39<00:00,  5.89 examples/s]Tokenizing Prompts (num_proc=16): 100%|██████████| 200/200 [00:39<00:00,  5.10 examples/s]
+[2026-02-25 23:20:16,420] [INFO] [axolotl.utils.data.utils.handle_long_seq_in_dataset:224] [PID:2758243] min_input_len: 281
+[2026-02-25 23:20:16,420] [INFO] [axolotl.utils.data.utils.handle_long_seq_in_dataset:226] [PID:2758243] max_input_len: 367
+Dropping Long Sequences (>2048) (num_proc=16):   0%|          | 0/200 [00:00<?, ? examples/s]Dropping Long Sequences (>2048) (num_proc=16):   6%|▋         | 13/200 [00:00<00:05, 37.12 examples/s]Dropping Long Sequences (>2048) (num_proc=16): 100%|██████████| 200/200 [00:00<00:00, 352.25 examples/s]
+Drop Samples with Zero Trainable Tokens (num_proc=16):   0%|          | 0/200 [00:00<?, ? examples/s]Drop Samples with Zero Trainable Tokens (num_proc=16):   6%|▋         | 13/200 [00:00<00:05, 36.81 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=16): 100%|██████████| 200/200 [00:00<00:00, 341.77 examples/s]
+Add position_id column (Sample Packing) (num_proc=16):   0%|          | 0/200 [00:00<?, ? examples/s]Add position_id column (Sample Packing) (num_proc=16):   6%|▋         | 13/200 [00:00<00:05, 35.74 examples/s]Add position_id column (Sample Packing) (num_proc=16): 100%|██████████| 200/200 [00:00<00:00, 338.77 examples/s]
+Saving the dataset (0/1 shards):   0%|          | 0/200 [00:00<?, ? examples/s]Saving the dataset (1/1 shards): 100%|██████████| 200/200 [00:00<00:00, 2525.56 examples/s]Saving the dataset (1/1 shards): 100%|██████████| 200/200 [00:00<00:00, 1297.97 examples/s]
+[2026-02-25 23:20:18,535] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:417] [PID:2758243] total_num_tokens: 64_780
+[2026-02-25 23:20:18,538] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:435] [PID:2758243] `total_supervised_tokens: 21_095`
+[2026-02-25 23:20:18,548] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:2758243] Using single process for pack_parallel, running sequentially.
+[2026-02-25 23:20:19,526] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:2758243] Using single process for pack_parallel, running sequentially.
+[2026-02-25 23:20:19,805] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.2789926528930664
+[2026-02-25 23:20:19,806] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:2758243] Using single process for pack_parallel, running sequentially.
+[2026-02-25 23:20:20,056] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.25099897384643555
+[2026-02-25 23:20:20,057] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:2758243] Using single process for pack_parallel, running sequentially.
+[2026-02-25 23:20:20,317] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.26085448265075684
+[2026-02-25 23:20:20,318] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:2758243] Using single process for pack_parallel, running sequentially.
+[2026-02-25 23:20:20,592] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.27407026290893555
+[2026-02-25 23:20:20,620] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:2758243] gather_len_batches: [17]
+[2026-02-25 23:20:20,620] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:494] [PID:2758243] data_loader_len: 4
+[2026-02-25 23:20:20,621] [INFO] [axolotl.utils.trainer.calc_sample_packing_eff_est:510] [PID:2758243] sample_packing_eff_est across ranks: [0.9303193933823529]
+[2026-02-25 23:20:20,621] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:522] [PID:2758243] sample_packing_eff_est: None
+[2026-02-25 23:20:20,621] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:533] [PID:2758243] total_num_steps: 20
+[2026-02-25 23:20:20,686] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:417] [PID:2758243] total_num_tokens: 16_272_381
+[2026-02-25 23:20:21,111] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:435] [PID:2758243] `total_supervised_tokens: 5_346_651`
+[2026-02-25 23:20:21,857] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:2758243] Using single process for pack_parallel, running sequentially.
+[2026-02-25 23:20:22,364] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:2758243] Using single process for pack_parallel, running sequentially.
+[2026-02-25 23:20:22,690] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.37067174911499023
+[2026-02-25 23:20:22,715] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:2758243] Using single process for pack_parallel, running sequentially.
+[2026-02-25 23:20:23,054] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.36322569847106934
+[2026-02-25 23:20:23,084] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:2758243] Using single process for pack_parallel, running sequentially.
+[2026-02-25 23:20:23,454] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.399259090423584
+[2026-02-25 23:20:23,466] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:2758243] Using single process for pack_parallel, running sequentially.
+[2026-02-25 23:20:23,786] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.33106088638305664
+[2026-02-25 23:20:23,787] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:2758243] gather_len_batches: [4124]
+[2026-02-25 23:20:23,787] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:494] [PID:2758243] data_loader_len: 1031
+[2026-02-25 23:20:23,787] [INFO] [axolotl.utils.trainer.calc_sample_packing_eff_est:510] [PID:2758243] sample_packing_eff_est across ranks: [0.9628573115797685]
+[2026-02-25 23:20:23,787] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:522] [PID:2758243] sample_packing_eff_est: 0.97
+[2026-02-25 23:20:23,787] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:533] [PID:2758243] total_num_steps: 5155
+[2026-02-25 23:20:23,789] [INFO] [axolotl.utils.data.sft._prepare_standard_dataset:121] [PID:2758243] Maximum number of steps set at 5155
+[2026-02-25 23:20:23,880] [DEBUG] [axolotl.train.setup_model_and_tokenizer:70] [PID:2758243] loading tokenizer... /home/jiaruil5/math_rl/mix_teachers/r3lit_rl/models/Qwen/Qwen3-4B-Instruct-2507
+[2026-02-25 23:20:25,220] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:285] [PID:2758243] EOS: 151645 / <|im_end|>
+[2026-02-25 23:20:25,221] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:286] [PID:2758243] BOS: None / None
+[2026-02-25 23:20:25,221] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:287] [PID:2758243] PAD: 151643 / <|endoftext|>
+[2026-02-25 23:20:25,221] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:288] [PID:2758243] UNK: None / None
+[2026-02-25 23:20:25,221] [DEBUG] [axolotl.train.setup_model_and_tokenizer:82] [PID:2758243] Loading model
+[2026-02-25 23:20:25,235] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_evaluation_loop:87] [PID:2758243] Patched Trainer.evaluation_loop with nanmean loss calculation
+[2026-02-25 23:20:25,237] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_maybe_log_save_evaluate:138] [PID:2758243] Patched Trainer._maybe_log_save_evaluate with nanmean loss calculation
+[2026-02-25 23:20:25,239] [INFO] [axolotl.loaders.patch_manager._apply_multipack_patches:346] [PID:2758243] Applying multipack dataloader patch for sample packing...
+Fetching 22 files:   0%|          | 0/22 [00:00<?, ?it/s]Fetching 22 files: 100%|██████████| 22/22 [00:00<00:00, 28366.03it/s]
+Loading weights:   0%|          | 0/398 [00:00<?, ?it/s]Loading weights:   0%|          | 1/398 [00:00<00:00, 12122.27it/s, Materializing param=model.embed_tokens.weight]Loading weights:   0%|          | 1/398 [00:00<00:00, 5190.97it/s, Materializing param=model.embed_tokens.weight] Loading weights:   1%|          | 2/398 [00:00<00:35, 11.19it/s, Materializing param=model.embed_tokens.weight]  Loading weights:   1%|          | 2/398 [00:00<00:35, 11.19it/s, Materializing param=model.layers.0.input_layernorm.weight]Loading weights:   1%|          | 2/398 [00:00<00:35, 11.19it/s, Materializing param=model.layers.0.input_layernorm.weight]Loading weights:   1%|          | 3/398 [00:00<00:35, 11.19it/s, Materializing param=model.layers.0.mlp.down_proj.weight]  Loading weights:   1%|          | 3/398 [00:00<00:35, 11.19it/s, Materializing param=model.layers.0.mlp.down_proj.weight]Loading weights:   1%|          | 4/398 [00:00<00:35, 11.19it/s, Materializing param=model.layers.0.mlp.gate_proj.weight]Loading weights:   1%|          | 4/398 [00:00<00:35, 11.19it/s, Materializing param=model.layers.0.mlp.gate_proj.weight]Loading weights:   1%|▏         | 5/398 [00:00<00:35, 11.19it/s, Materializing param=model.layers.0.mlp.up_proj.weight]  Loading weights:   1%|▏         | 5/398 [00:00<00:35, 11.19it/s, Materializing param=model.layers.0.mlp.up_proj.weight]Loading weights:   2%|▏         | 6/398 [00:00<00:35, 11.19it/s, Materializing param=model.layers.0.post_attention_layernorm.weight]Loading weights:   2%|▏         | 6/398 [00:00<00:35, 11.19it/s, Materializing param=model.layers.0.post_attention_layernorm.weight]Loading weights:   2%|▏         | 7/398 [00:00<00:34, 11.19it/s, Materializing param=model.layers.0.self_attn.k_norm.weight]        Loading weights:   2%|▏         | 7/398 [00:00<00:34, 11.19it/s, Materializing param=model.layers.0.self_attn.k_norm.weight]Loading weights:   2%|▏         | 8/398 [00:00<00:34, 11.19it/s, Materializing param=model.layers.0.self_attn.k_proj.weight]Loading weights:   2%|▏         | 8/398 [00:00<00:34, 11.19it/s, Materializing param=model.layers.0.self_attn.k_proj.weight]Loading weights:   2%|▏         | 9/398 [00:00<00:34, 11.19it/s, Materializing param=model.layers.0.self_attn.o_proj.weight]Loading weights:   2%|▏         | 9/398 [00:00<00:34, 11.19it/s, Materializing param=model.layers.0.self_attn.o_proj.weight]Loading weights:   3%|▎         | 10/398 [00:00<00:34, 11.19it/s, Materializing param=model.layers.0.self_attn.q_norm.weight]Loading weights:   3%|▎         | 10/398 [00:00<00:34, 11.19it/s, Materializing param=model.layers.0.self_attn.q_norm.weight]Loading weights:   3%|▎         | 11/398 [00:00<00:34, 11.19it/s, Materializing param=model.layers.0.self_attn.q_proj.weight]Loading weights:   3%|▎         | 11/398 [00:00<00:34, 11.19it/s, Materializing param=model.layers.0.self_attn.q_proj.weight]Loading weights:   3%|▎         | 12/398 [00:00<00:34, 11.19it/s, Materializing param=model.layers.0.self_attn.v_proj.weight]Loading weights:   3%|▎         | 12/398 [00:00<00:34, 11.19it/s, Materializing param=model.layers.0.self_attn.v_proj.weight]Loading weights:   3%|▎         | 13/398 [00:00<00:34, 11.19it/s, Materializing param=model.layers.1.input_layernorm.weight] Loading weights:   3%|▎         | 13/398 [00:00<00:34, 11.19it/s, Materializing param=model.layers.1.input_layernorm.weight]Loading weights:   4%|▎         | 14/398 [00:00<00:34, 11.19it/s, Materializing param=model.layers.1.mlp.down_proj.weight]  Loading weights:   4%|▎         | 14/398 [00:00<00:34, 11.19it/s, Materializing param=model.layers.1.mlp.down_proj.weight]Loading weights:   4%|▍         | 15/398 [00:00<00:34, 11.19it/s, Materializing param=model.layers.1.mlp.gate_proj.weight]Loading weights:   4%|▍         | 15/398 [00:00<00:34, 11.19it/s, Materializing param=model.layers.1.mlp.gate_proj.weight]Loading weights:   4%|▍         | 16/398 [00:00<00:34, 11.19it/s, Materializing param=model.layers.1.mlp.up_proj.weight]  Loading weights:   4%|▍         | 16/398 [00:00<00:34, 11.19it/s, Materializing param=model.layers.1.mlp.up_proj.weight]Loading weights:   4%|▍         | 17/398 [00:00<00:34, 11.19it/s, Materializing param=model.layers.1.post_attention_layernorm.weight]Loading weights:   4%|▍         | 17/398 [00:00<00:34, 11.19it/s, Materializing param=model.layers.1.post_attention_layernorm.weight]Loading weights:   5%|▍         | 18/398 [00:00<00:33, 11.19it/s, Materializing param=model.layers.1.self_attn.k_norm.weight]        Loading weights:   5%|▍         | 18/398 [00:00<00:33, 11.19it/s, Materializing param=model.layers.1.self_attn.k_norm.weight]Loading weights:   5%|▍         | 19/398 [00:00<00:33, 11.19it/s, Materializing param=model.layers.1.self_attn.k_proj.weight]Loading weights:   5%|▍         | 19/398 [00:00<00:33, 11.19it/s, Materializing param=model.layers.1.self_attn.k_proj.weight]Loading weights:   5%|▌         | 20/398 [00:00<00:33, 11.19it/s, Materializing param=model.layers.1.self_attn.o_proj.weight]Loading weights:   5%|▌         | 20/398 [00:00<00:33, 11.19it/s, Materializing param=model.layers.1.self_attn.o_proj.weight]Loading weights:   5%|▌         | 21/398 [00:00<00:04, 88.41it/s, Materializing param=model.layers.1.self_attn.o_proj.weight]Loading weights:   5%|▌         | 21/398 [00:00<00:04, 88.41it/s, Materializing param=model.layers.1.self_attn.q_norm.weight]Loading weights:   5%|▌         | 21/398 [00:00<00:04, 88.41it/s, Materializing param=model.layers.1.self_attn.q_norm.weight]Loading weights:   6%|▌         | 22/398 [00:00<00:04, 88.41it/s, Materializing param=model.layers.1.self_attn.q_proj.weight]Loading weights:   6%|▌         | 22/398 [00:00<00:04, 88.41it/s, Materializing param=model.layers.1.self_attn.q_proj.weight]Loading weights:   6%|▌         | 23/398 [00:00<00:04, 88.41it/s, Materializing param=model.layers.1.self_attn.v_proj.weight]Loading weights:   6%|▌         | 23/398 [00:00<00:04, 88.41it/s, Materializing param=model.layers.1.self_attn.v_proj.weight]Loading weights:   6%|▌         | 24/398 [00:00<00:04, 88.41it/s, Materializing param=model.layers.2.input_layernorm.weight] Loading weights:   6%|▌         | 24/398 [00:00<00:04, 88.41it/s, Materializing param=model.layers.2.input_layernorm.weight]Loading weights:   6%|▋         | 25/398 [00:00<00:04, 88.41it/s, Materializing param=model.layers.2.mlp.down_proj.weight]  Loading weights:   6%|▋         | 25/398 [00:00<00:04, 88.41it/s, Materializing param=model.layers.2.mlp.down_proj.weight]Loading weights:   7%|▋         | 26/398 [00:00<00:04, 88.41it/s, Materializing param=model.layers.2.mlp.gate_proj.weight]Loading weights:   7%|▋         | 26/398 [00:00<00:04, 88.41it/s, Materializing param=model.layers.2.mlp.gate_proj.weight]Loading weights:   7%|▋         | 27/398 [00:00<00:04, 88.41it/s, Materializing param=model.layers.2.mlp.up_proj.weight]  Loading weights:   7%|▋         | 27/398 [00:00<00:04, 88.41it/s, Materializing param=model.layers.2.mlp.up_proj.weight]Loading weights:   7%|▋         | 28/398 [00:00<00:04, 88.41it/s, Materializing param=model.layers.2.post_attention_layernorm.weight]Loading weights:   7%|▋         | 28/398 [00:00<00:04, 88.41it/s, Materializing param=model.layers.2.post_attention_layernorm.weight]Loading weights:   7%|▋         | 29/398 [00:00<00:04, 88.41it/s, Materializing param=model.layers.2.self_attn.k_norm.weight]        Loading weights:   7%|▋         | 29/398 [00:00<00:04, 88.41it/s, Materializing param=model.layers.2.self_attn.k_norm.weight]Loading weights:   8%|▊         | 30/398 [00:00<00:04, 88.41it/s, Materializing param=model.layers.2.self_attn.k_proj.weight]Loading weights:   8%|▊         | 30/398 [00:00<00:04, 88.41it/s, Materializing param=model.layers.2.self_attn.k_proj.weight]Loading weights:   8%|▊         | 31/398 [00:00<00:04, 88.41it/s, Materializing param=model.layers.2.self_attn.o_proj.weight]Loading weights:   8%|▊         | 31/398 [00:00<00:04, 88.41it/s, Materializing param=model.layers.2.self_attn.o_proj.weight]Loading weights:   8%|▊         | 32/398 [00:00<00:04, 88.41it/s, Materializing param=model.layers.2.self_attn.q_norm.weight]Loading weights:   8%|▊         | 32/398 [00:00<00:04, 88.41it/s, Materializing param=model.layers.2.self_attn.q_norm.weight]Loading weights:   8%|▊         | 33/398 [00:00<00:04, 88.41it/s, Materializing param=model.layers.2.self_attn.q_proj.weight]Loading weights:   8%|▊         | 33/398 [00:00<00:04, 88.41it/s, Materializing param=model.layers.2.self_attn.q_proj.weight]Loading weights:   9%|▊         | 34/398 [00:00<00:04, 88.41it/s, Materializing param=model.layers.2.self_attn.v_proj.weight]Loading weights:   9%|▊         | 34/398 [00:00<00:04, 88.41it/s, Materializing param=model.layers.2.self_attn.v_proj.weight]Loading weights:   9%|▉         | 35/398 [00:00<00:04, 88.41it/s, Materializing param=model.layers.3.input_layernorm.weight] Loading weights:   9%|▉         | 35/398 [00:00<00:04, 88.41it/s, Materializing param=model.layers.3.input_layernorm.weight]Loading weights:   9%|▉         | 36/398 [00:00<00:04, 88.41it/s, Materializing param=model.layers.3.mlp.down_proj.weight]  Loading weights:   9%|▉         | 36/398 [00:00<00:04, 88.41it/s, Materializing param=model.layers.3.mlp.down_proj.weight]Loading weights:   9%|▉         | 37/398 [00:00<00:04, 88.41it/s, Materializing param=model.layers.3.mlp.gate_proj.weight]Loading weights:   9%|▉         | 37/398 [00:00<00:04, 88.41it/s, Materializing param=model.layers.3.mlp.gate_proj.weight]Loading weights:  10%|▉         | 38/398 [00:00<00:03, 119.43it/s, Materializing param=model.layers.3.mlp.gate_proj.weight]Loading weights:  10%|▉         | 38/398 [00:00<00:03, 119.43it/s, Materializing param=model.layers.3.mlp.up_proj.weight]  Loading weights:  10%|▉         | 38/398 [00:00<00:03, 119.43it/s, Materializing param=model.layers.3.mlp.up_proj.weight]Loading weights:  10%|▉         | 39/398 [00:00<00:03, 119.43it/s, Materializing param=model.layers.3.post_attention_layernorm.weight]Loading weights:  10%|▉         | 39/398 [00:00<00:03, 119.43it/s, Materializing param=model.layers.3.post_attention_layernorm.weight]Loading weights:  10%|█         | 40/398 [00:00<00:02, 119.43it/s, Materializing param=model.layers.3.self_attn.k_norm.weight]        Loading weights:  10%|█         | 40/398 [00:00<00:02, 119.43it/s, Materializing param=model.layers.3.self_attn.k_norm.weight]Loading weights:  10%|█         | 41/398 [00:00<00:02, 119.43it/s, Materializing param=model.layers.3.self_attn.k_proj.weight]Loading weights:  10%|█         | 41/398 [00:00<00:02, 119.43it/s, Materializing param=model.layers.3.self_attn.k_proj.weight]Loading weights:  11%|█         | 42/398 [00:00<00:02, 119.43it/s, Materializing param=model.layers.3.self_attn.o_proj.weight]Loading weights:  11%|█         | 42/398 [00:00<00:02, 119.43it/s, Materializing param=model.layers.3.self_attn.o_proj.weight]Loading weights:  11%|█         | 43/398 [00:00<00:02, 119.43it/s, Materializing param=model.layers.3.self_attn.q_norm.weight]Loading weights:  11%|█         | 43/398 [00:00<00:02, 119.43it/s, Materializing param=model.layers.3.self_attn.q_norm.weight]Loading weights:  11%|█         | 44/398 [00:00<00:02, 119.43it/s, Materializing param=model.layers.3.self_attn.q_proj.weight]Loading weights:  11%|█         | 44/398 [00:00<00:02, 119.43it/s, Materializing param=model.layers.3.self_attn.q_proj.weight]Loading weights:  11%|█▏        | 45/398 [00:00<00:02, 119.43it/s, Materializing param=model.layers.3.self_attn.v_proj.weight]Loading weights:  11%|█▏        | 45/398 [00:00<00:02, 119.43it/s, Materializing param=model.layers.3.self_attn.v_proj.weight]Loading weights:  12%|█▏        | 46/398 [00:00<00:02, 119.43it/s, Materializing param=model.layers.4.input_layernorm.weight] Loading weights:  12%|█▏        | 46/398 [00:00<00:02, 119.43it/s, Materializing param=model.layers.4.input_layernorm.weight]Loading weights:  12%|█▏        | 47/398 [00:00<00:02, 119.43it/s, Materializing param=model.layers.4.mlp.down_proj.weight]  Loading weights:  12%|█▏        | 47/398 [00:00<00:02, 119.43it/s, Materializing param=model.layers.4.mlp.down_proj.weight]Loading weights:  12%|█▏        | 48/398 [00:00<00:02, 119.43it/s, Materializing param=model.layers.4.mlp.gate_proj.weight]Loading weights:  12%|█▏        | 48/398 [00:00<00:02, 119.43it/s, Materializing param=model.layers.4.mlp.gate_proj.weight]Loading weights:  12%|█▏        | 49/398 [00:00<00:02, 119.43it/s, Materializing param=model.layers.4.mlp.up_proj.weight]  Loading weights:  12%|█▏        | 49/398 [00:00<00:02, 119.43it/s, Materializing param=model.layers.4.mlp.up_proj.weight]Loading weights:  13%|█▎        | 50/398 [00:00<00:02, 119.43it/s, Materializing param=model.layers.4.post_attention_layernorm.weight]Loading weights:  13%|█▎        | 50/398 [00:00<00:02, 119.43it/s, Materializing param=model.layers.4.post_attention_layernorm.weight]Loading weights:  13%|█▎        | 51/398 [00:00<00:02, 119.43it/s, Materializing param=model.layers.4.self_attn.k_norm.weight]        Loading weights:  13%|█▎        | 51/398 [00:00<00:02, 119.43it/s, Materializing param=model.layers.4.self_attn.k_norm.weight]Loading weights:  13%|█▎        | 52/398 [00:00<00:02, 119.43it/s, Materializing param=model.layers.4.self_attn.k_proj.weight]Loading weights:  13%|█▎        | 52/398 [00:00<00:02, 119.43it/s, Materializing param=model.layers.4.self_attn.k_proj.weight]Loading weights:  13%|█▎        | 53/398 [00:00<00:02, 119.43it/s, Materializing param=model.layers.4.self_attn.o_proj.weight]Loading weights:  13%|█▎        | 53/398 [00:00<00:02, 119.43it/s, Materializing param=model.layers.4.self_attn.o_proj.weight]Loading weights:  14%|█▎        | 54/398 [00:00<00:02, 119.43it/s, Materializing param=model.layers.4.self_attn.q_norm.weight]Loading weights:  14%|█▎        | 54/398 [00:00<00:02, 119.43it/s, Materializing param=model.layers.4.self_attn.q_norm.weight]Loading weights:  14%|█▍        | 55/398 [00:00<00:02, 119.43it/s, Materializing param=model.layers.4.self_attn.q_proj.weight]Loading weights:  14%|█▍        | 55/398 [00:00<00:02, 119.43it/s, Materializing param=model.layers.4.self_attn.q_proj.weight]Loading weights:  14%|█▍        | 56/398 [00:00<00:02, 119.43it/s, Materializing param=model.layers.4.self_attn.v_proj.weight]Loading weights:  14%|█▍        | 56/398 [00:00<00:02, 119.43it/s, Materializing param=model.layers.4.self_attn.v_proj.weight]Loading weights:  14%|█▍        | 57/398 [00:00<00:02, 119.43it/s, Materializing param=model.layers.5.input_layernorm.weight] Loading weights:  14%|█▍        | 57/398 [00:00<00:02, 119.43it/s, Materializing param=model.layers.5.input_layernorm.weight]Loading weights:  15%|█▍        | 58/398 [00:00<00:02, 119.43it/s, Materializing param=model.layers.5.mlp.down_proj.weight]  Loading weights:  15%|█▍        | 58/398 [00:00<00:02, 119.43it/s, Materializing param=model.layers.5.mlp.down_proj.weight]Loading weights:  15%|█▍        | 59/398 [00:00<00:02, 147.64it/s, Materializing param=model.layers.5.mlp.down_proj.weight]Loading weights:  15%|█▍        | 59/398 [00:00<00:02, 147.64it/s, Materializing param=model.layers.5.mlp.gate_proj.weight]Loading weights:  15%|█▍        | 59/398 [00:00<00:02, 147.64it/s, Materializing param=model.layers.5.mlp.gate_proj.weight]Loading weights:  15%|█▌        | 60/398 [00:00<00:02, 147.64it/s, Materializing param=model.layers.5.mlp.up_proj.weight]  Loading weights:  15%|█▌        | 60/398 [00:00<00:02, 147.64it/s, Materializing param=model.layers.5.mlp.up_proj.weight]Loading weights:  15%|█▌        | 61/398 [00:00<00:02, 147.64it/s, Materializing param=model.layers.5.post_attention_layernorm.weight]Loading weights:  15%|█▌        | 61/398 [00:00<00:02, 147.64it/s, Materializing param=model.layers.5.post_attention_layernorm.weight]Loading weights:  16%|█▌        | 62/398 [00:00<00:02, 147.64it/s, Materializing param=model.layers.5.self_attn.k_norm.weight]        Loading weights:  16%|█▌        | 62/398 [00:00<00:02, 147.64it/s, Materializing param=model.layers.5.self_attn.k_norm.weight]Loading weights:  16%|█▌        | 63/398 [00:00<00:02, 147.64it/s, Materializing param=model.layers.5.self_attn.k_proj.weight]Loading weights:  16%|█▌        | 63/398 [00:00<00:02, 147.64it/s, Materializing param=model.layers.5.self_attn.k_proj.weight]Loading weights:  16%|█▌        | 64/398 [00:00<00:02, 147.64it/s, Materializing param=model.layers.5.self_attn.o_proj.weight]Loading weights:  16%|█▌        | 64/398 [00:00<00:02, 147.64it/s, Materializing param=model.layers.5.self_attn.o_proj.weight]Loading weights:  16%|█▋        | 65/398 [00:00<00:02, 147.64it/s, Materializing param=model.layers.5.self_attn.q_norm.weight]Loading weights:  16%|█▋        | 65/398 [00:00<00:02, 147.64it/s, Materializing param=model.layers.5.self_attn.q_norm.weight]Loading weights:  17%|█▋        | 66/398 [00:00<00:02, 147.64it/s, Materializing param=model.layers.5.self_attn.q_proj.weight]Loading weights:  17%|█▋        | 66/398 [00:00<00:02, 147.64it/s, Materializing param=model.layers.5.self_attn.q_proj.weight]Loading weights:  17%|█▋        | 67/398 [00:00<00:02, 147.64it/s, Materializing param=model.layers.5.self_attn.v_proj.weight]Loading weights:  17%|█▋        | 67/398 [00:00<00:02, 147.64it/s, Materializing param=model.layers.5.self_attn.v_proj.weight]Loading weights:  17%|█▋        | 68/398 [00:00<00:02, 147.64it/s, Materializing param=model.layers.6.input_layernorm.weight] Loading weights:  17%|█▋        | 68/398 [00:00<00:02, 147.64it/s, Materializing param=model.layers.6.input_layernorm.weight]Loading weights:  17%|█▋        | 69/398 [00:00<00:02, 147.64it/s, Materializing param=model.layers.6.mlp.down_proj.weight]  Loading weights:  17%|█▋        | 69/398 [00:00<00:02, 147.64it/s, Materializing param=model.layers.6.mlp.down_proj.weight]Loading weights:  18%|█▊        | 70/398 [00:00<00:02, 147.64it/s, Materializing param=model.layers.6.mlp.gate_proj.weight]Loading weights:  18%|█▊        | 70/398 [00:00<00:02, 147.64it/s, Materializing param=model.layers.6.mlp.gate_proj.weight]Loading weights:  18%|█▊        | 71/398 [00:00<00:02, 147.64it/s, Materializing param=model.layers.6.mlp.up_proj.weight]  Loading weights:  18%|█▊        | 71/398 [00:00<00:02, 147.64it/s, Materializing param=model.layers.6.mlp.up_proj.weight]Loading weights:  18%|█▊        | 72/398 [00:00<00:02, 147.64it/s, Materializing param=model.layers.6.post_attention_layernorm.weight]Loading weights:  18%|█▊        | 72/398 [00:00<00:02, 147.64it/s, Materializing param=model.layers.6.post_attention_layernorm.weight]Loading weights:  18%|█▊        | 73/398 [00:00<00:02, 147.64it/s, Materializing param=model.layers.6.self_attn.k_norm.weight]        Loading weights:  18%|█▊        | 73/398 [00:00<00:02, 147.64it/s, Materializing param=model.layers.6.self_attn.k_norm.weight]Loading weights:  19%|█▊        | 74/398 [00:00<00:02, 147.64it/s, Materializing param=model.layers.6.self_attn.k_proj.weight]Loading weights:  19%|█▊        | 74/398 [00:00<00:02, 147.64it/s, Materializing param=model.layers.6.self_attn.k_proj.weight]Loading weights:  19%|█▉        | 75/398 [00:00<00:02, 147.64it/s, Materializing param=model.layers.6.self_attn.o_proj.weight]Loading weights:  19%|█▉        | 75/398 [00:00<00:02, 147.64it/s, Materializing param=model.layers.6.self_attn.o_proj.weight]Loading weights:  19%|█▉        | 76/398 [00:00<00:02, 147.64it/s, Materializing param=model.layers.6.self_attn.q_norm.weight]Loading weights:  19%|█▉        | 76/398 [00:00<00:02, 147.64it/s, Materializing param=model.layers.6.self_attn.q_norm.weight]Loading weights:  19%|█▉        | 77/398 [00:00<00:02, 147.64it/s, Materializing param=model.layers.6.self_attn.q_proj.weight]Loading weights:  19%|█▉        | 77/398 [00:00<00:02, 147.64it/s, Materializing param=model.layers.6.self_attn.q_proj.weight]Loading weights:  20%|█▉        | 78/398 [00:00<00:01, 160.38it/s, Materializing param=model.layers.6.self_attn.q_proj.weight]Loading weights:  20%|█▉        | 78/398 [00:00<00:01, 160.38it/s, Materializing param=model.layers.6.self_attn.v_proj.weight]Loading weights:  20%|█▉        | 78/398 [00:00<00:01, 160.38it/s, Materializing param=model.layers.6.self_attn.v_proj.weight]Loading weights:  20%|█▉        | 79/398 [00:00<00:01, 160.38it/s, Materializing param=model.layers.7.input_layernorm.weight] Loading weights:  20%|█▉        | 79/398 [00:00<00:01, 160.38it/s, Materializing param=model.layers.7.input_layernorm.weight]Loading weights:  20%|██        | 80/398 [00:00<00:01, 160.38it/s, Materializing param=model.layers.7.mlp.down_proj.weight]  Loading weights:  20%|██        | 80/398 [00:00<00:01, 160.38it/s, Materializing param=model.layers.7.mlp.down_proj.weight]Loading weights:  20%|██        | 81/398 [00:00<00:01, 160.38it/s, Materializing param=model.layers.7.mlp.gate_proj.weight]Loading weights:  20%|██        | 81/398 [00:00<00:01, 160.38it/s, Materializing param=model.layers.7.mlp.gate_proj.weight]Loading weights:  21%|██        | 82/398 [00:00<00:01, 160.38it/s, Materializing param=model.layers.7.mlp.up_proj.weight]  Loading weights:  21%|██        | 82/398 [00:00<00:01, 160.38it/s, Materializing param=model.layers.7.mlp.up_proj.weight]Loading weights:  21%|██        | 83/398 [00:00<00:01, 160.38it/s, Materializing param=model.layers.7.post_attention_layernorm.weight]Loading weights:  21%|██        | 83/398 [00:00<00:01, 160.38it/s, Materializing param=model.layers.7.post_attention_layernorm.weight]Loading weights:  21%|██        | 84/398 [00:00<00:01, 160.38it/s, Materializing param=model.layers.7.self_attn.k_norm.weight]        Loading weights:  21%|██        | 84/398 [00:00<00:01, 160.38it/s, Materializing param=model.layers.7.self_attn.k_norm.weight]Loading weights:  21%|██▏       | 85/398 [00:00<00:01, 160.38it/s, Materializing param=model.layers.7.self_attn.k_proj.weight]Loading weights:  21%|██▏       | 85/398 [00:00<00:01, 160.38it/s, Materializing param=model.layers.7.self_attn.k_proj.weight]Loading weights:  22%|██▏       | 86/398 [00:00<00:01, 160.38it/s, Materializing param=model.layers.7.self_attn.o_proj.weight]Loading weights:  22%|██▏       | 86/398 [00:00<00:01, 160.38it/s, Materializing param=model.layers.7.self_attn.o_proj.weight]Loading weights:  22%|██▏       | 87/398 [00:00<00:01, 160.38it/s, Materializing param=model.layers.7.self_attn.q_norm.weight]Loading weights:  22%|██▏       | 87/398 [00:00<00:01, 160.38it/s, Materializing param=model.layers.7.self_attn.q_norm.weight]Loading weights:  22%|██▏       | 88/398 [00:00<00:01, 160.38it/s, Materializing param=model.layers.7.self_attn.q_proj.weight]Loading weights:  22%|██▏       | 88/398 [00:00<00:01, 160.38it/s, Materializing param=model.layers.7.self_attn.q_proj.weight]Loading weights:  22%|██▏       | 89/398 [00:00<00:01, 160.38it/s, Materializing param=model.layers.7.self_attn.v_proj.weight]Loading weights:  22%|██▏       | 89/398 [00:00<00:01, 160.38it/s, Materializing param=model.layers.7.self_attn.v_proj.weight]Loading weights:  23%|██▎       | 90/398 [00:00<00:01, 160.38it/s, Materializing param=model.layers.8.input_layernorm.weight] Loading weights:  23%|██▎       | 90/398 [00:00<00:01, 160.38it/s, Materializing param=model.layers.8.input_layernorm.weight]Loading weights:  23%|██▎       | 91/398 [00:00<00:01, 160.38it/s, Materializing param=model.layers.8.mlp.down_proj.weight]  Loading weights:  23%|██▎       | 91/398 [00:00<00:01, 160.38it/s, Materializing param=model.layers.8.mlp.down_proj.weight]Loading weights:  23%|██▎       | 92/398 [00:00<00:01, 160.38it/s, Materializing param=model.layers.8.mlp.gate_proj.weight]Loading weights:  23%|██▎       | 92/398 [00:00<00:01, 160.38it/s, Materializing param=model.layers.8.mlp.gate_proj.weight]Loading weights:  23%|██▎       | 93/398 [00:00<00:01, 160.38it/s, Materializing param=model.layers.8.mlp.up_proj.weight]  Loading weights:  23%|██▎       | 93/398 [00:00<00:01, 160.38it/s, Materializing param=model.layers.8.mlp.up_proj.weight]Loading weights:  24%|██▎       | 94/398 [00:00<00:01, 160.38it/s, Materializing param=model.layers.8.post_attention_layernorm.weight]Loading weights:  24%|██▎       | 94/398 [00:00<00:01, 160.38it/s, Materializing param=model.layers.8.post_attention_layernorm.weight]Loading weights:  24%|██▍       | 95/398 [00:00<00:01, 160.97it/s, Materializing param=model.layers.8.post_attention_layernorm.weight]Loading weights:  24%|██▍       | 95/398 [00:00<00:01, 160.97it/s, Materializing param=model.layers.8.self_attn.k_norm.weight]        Loading weights:  24%|██▍       | 95/398 [00:00<00:01, 160.97it/s, Materializing param=model.layers.8.self_attn.k_norm.weight]Loading weights:  24%|██▍       | 96/398 [00:00<00:01, 160.97it/s, Materializing param=model.layers.8.self_attn.k_proj.weight]Loading weights:  24%|██▍       | 96/398 [00:00<00:01, 160.97it/s, Materializing param=model.layers.8.self_attn.k_proj.weight]Loading weights:  24%|██▍       | 97/398 [00:00<00:01, 160.97it/s, Materializing param=model.layers.8.self_attn.o_proj.weight]Loading weights:  24%|██▍       | 97/398 [00:00<00:01, 160.97it/s, Materializing param=model.layers.8.self_attn.o_proj.weight]Loading weights:  25%|██▍       | 98/398 [00:00<00:01, 160.97it/s, Materializing param=model.layers.8.self_attn.q_norm.weight]Loading weights:  25%|██▍       | 98/398 [00:00<00:01, 160.97it/s, Materializing param=model.layers.8.self_attn.q_norm.weight]Loading weights:  25%|██▍       | 99/398 [00:00<00:01, 160.97it/s, Materializing param=model.layers.8.self_attn.q_proj.weight]Loading weights:  25%|██▍       | 99/398 [00:00<00:01, 160.97it/s, Materializing param=model.layers.8.self_attn.q_proj.weight]Loading weights:  25%|██▌       | 100/398 [00:00<00:01, 160.97it/s, Materializing param=model.layers.8.self_attn.v_proj.weight]Loading weights:  25%|██▌       | 100/398 [00:00<00:01, 160.97it/s, Materializing param=model.layers.8.self_attn.v_proj.weight]Loading weights:  25%|██▌       | 101/398 [00:00<00:01, 160.97it/s, Materializing param=model.layers.9.input_layernorm.weight] Loading weights:  25%|██▌       | 101/398 [00:00<00:01, 160.97it/s, Materializing param=model.layers.9.input_layernorm.weight]Loading weights:  26%|██▌       | 102/398 [00:00<00:01, 160.97it/s, Materializing param=model.layers.9.mlp.down_proj.weight]  Loading weights:  26%|██▌       | 102/398 [00:00<00:01, 160.97it/s, Materializing param=model.layers.9.mlp.down_proj.weight]Loading weights:  26%|██▌       | 103/398 [00:00<00:01, 160.97it/s, Materializing param=model.layers.9.mlp.gate_proj.weight]Loading weights:  26%|██▌       | 103/398 [00:00<00:01, 160.97it/s, Materializing param=model.layers.9.mlp.gate_proj.weight]Loading weights:  26%|██▌       | 104/398 [00:00<00:01, 160.97it/s, Materializing param=model.layers.9.mlp.up_proj.weight]  Loading weights:  26%|██▌       | 104/398 [00:00<00:01, 160.97it/s, Materializing param=model.layers.9.mlp.up_proj.weight]Loading weights:  26%|██▋       | 105/398 [00:00<00:01, 160.97it/s, Materializing param=model.layers.9.post_attention_layernorm.weight]Loading weights:  26%|██▋       | 105/398 [00:00<00:01, 160.97it/s, Materializing param=model.layers.9.post_attention_layernorm.weight]Loading weights:  27%|██▋       | 106/398 [00:00<00:01, 160.97it/s, Materializing param=model.layers.9.self_attn.k_norm.weight]        Loading weights:  27%|██▋       | 106/398 [00:00<00:01, 160.97it/s, Materializing param=model.layers.9.self_attn.k_norm.weight]Loading weights:  27%|██▋       | 107/398 [00:00<00:01, 160.97it/s, Materializing param=model.layers.9.self_attn.k_proj.weight]Loading weights:  27%|██▋       | 107/398 [00:00<00:01, 160.97it/s, Materializing param=model.layers.9.self_attn.k_proj.weight]Loading weights:  27%|██▋       | 108/398 [00:00<00:01, 160.97it/s, Materializing param=model.layers.9.self_attn.o_proj.weight]Loading weights:  27%|██▋       | 108/398 [00:00<00:01, 160.97it/s, Materializing param=model.layers.9.self_attn.o_proj.weight]Loading weights:  27%|██▋       | 109/398 [00:00<00:01, 160.97it/s, Materializing param=model.layers.9.self_attn.q_norm.weight]Loading weights:  27%|██▋       | 109/398 [00:00<00:01, 160.97it/s, Materializing param=model.layers.9.self_attn.q_norm.weight]Loading weights:  28%|██▊       | 110/398 [00:00<00:01, 160.97it/s, Materializing param=model.layers.9.self_attn.q_proj.weight]Loading weights:  28%|██▊       | 110/398 [00:00<00:01, 160.97it/s, Materializing param=model.layers.9.self_attn.q_proj.weight]Loading weights:  28%|██▊       | 111/398 [00:00<00:01, 160.97it/s, Materializing param=model.layers.9.self_attn.v_proj.weight]Loading weights:  28%|██▊       | 111/398 [00:00<00:01, 160.97it/s, Materializing param=model.layers.9.self_attn.v_proj.weight]Loading weights:  28%|██▊       | 112/398 [00:00<00:01, 160.97it/s, Materializing param=model.layers.10.input_layernorm.weight]Loading weights:  28%|██▊       | 112/398 [00:00<00:01, 160.97it/s, Materializing param=model.layers.10.input_layernorm.weight]Loading weights:  28%|██▊       | 113/398 [00:00<00:01, 160.97it/s, Materializing param=model.layers.10.mlp.down_proj.weight]  Loading weights:  28%|██▊       | 113/398 [00:00<00:01, 160.97it/s, Materializing param=model.layers.10.mlp.down_proj.weight]Loading weights:  29%|██▊       | 114/398 [00:00<00:01, 160.97it/s, Materializing param=model.layers.10.mlp.gate_proj.weight]Loading weights:  29%|██▊       | 114/398 [00:00<00:01, 160.97it/s, Materializing param=model.layers.10.mlp.gate_proj.weight]Loading weights:  29%|██▉       | 115/398 [00:00<00:01, 171.09it/s, Materializing param=model.layers.10.mlp.gate_proj.weight]Loading weights:  29%|██▉       | 115/398 [00:00<00:01, 171.09it/s, Materializing param=model.layers.10.mlp.up_proj.weight]  Loading weights:  29%|██▉       | 115/398 [00:00<00:01, 171.09it/s, Materializing param=model.layers.10.mlp.up_proj.weight]Loading weights:  29%|██▉       | 116/398 [00:00<00:01, 171.09it/s, Materializing param=model.layers.10.post_attention_layernorm.weight]Loading weights:  29%|██▉       | 116/398 [00:00<00:01, 171.09it/s, Materializing param=model.layers.10.post_attention_layernorm.weight]Loading weights:  29%|██▉       | 117/398 [00:00<00:01, 171.09it/s, Materializing param=model.layers.10.self_attn.k_norm.weight]        Loading weights:  29%|██▉       | 117/398 [00:00<00:01, 171.09it/s, Materializing param=model.layers.10.self_attn.k_norm.weight]Loading weights:  30%|██▉       | 118/398 [00:00<00:01, 171.09it/s, Materializing param=model.layers.10.self_attn.k_proj.weight]Loading weights:  30%|██▉       | 118/398 [00:00<00:01, 171.09it/s, Materializing param=model.layers.10.self_attn.k_proj.weight]Loading weights:  30%|██▉       | 119/398 [00:00<00:01, 171.09it/s, Materializing param=model.layers.10.self_attn.o_proj.weight]Loading weights:  30%|██▉       | 119/398 [00:00<00:01, 171.09it/s, Materializing param=model.layers.10.self_attn.o_proj.weight]Loading weights:  30%|███       | 120/398 [00:00<00:01, 171.09it/s, Materializing param=model.layers.10.self_attn.q_norm.weight]Loading weights:  30%|███       | 120/398 [00:00<00:01, 171.09it/s, Materializing param=model.layers.10.self_attn.q_norm.weight]Loading weights:  30%|███       | 121/398 [00:00<00:01, 171.09it/s, Materializing param=model.layers.10.self_attn.q_proj.weight]Loading weights:  30%|███       | 121/398 [00:00<00:01, 171.09it/s, Materializing param=model.layers.10.self_attn.q_proj.weight]Loading weights:  31%|███       | 122/398 [00:00<00:01, 171.09it/s, Materializing param=model.layers.10.self_attn.v_proj.weight]Loading weights:  31%|███       | 122/398 [00:00<00:01, 171.09it/s, Materializing param=model.layers.10.self_attn.v_proj.weight]Loading weights:  31%|███       | 123/398 [00:00<00:01, 171.09it/s, Materializing param=model.layers.11.input_layernorm.weight] Loading weights:  31%|███       | 123/398 [00:00<00:01, 171.09it/s, Materializing param=model.layers.11.input_layernorm.weight]Loading weights:  31%|███       | 124/398 [00:00<00:01, 171.09it/s, Materializing param=model.layers.11.mlp.down_proj.weight]  Loading weights:  31%|███       | 124/398 [00:00<00:01, 171.09it/s, Materializing param=model.layers.11.mlp.down_proj.weight]Loading weights:  31%|███▏      | 125/398 [00:00<00:01, 171.09it/s, Materializing param=model.layers.11.mlp.gate_proj.weight]Loading weights:  31%|███▏      | 125/398 [00:00<00:01, 171.09it/s, Materializing param=model.layers.11.mlp.gate_proj.weight]Loading weights:  32%|███▏      | 126/398 [00:00<00:01, 171.09it/s, Materializing param=model.layers.11.mlp.up_proj.weight]  Loading weights:  32%|███▏      | 126/398 [00:00<00:01, 171.09it/s, Materializing param=model.layers.11.mlp.up_proj.weight]Loading weights:  32%|███▏      | 127/398 [00:00<00:01, 171.09it/s, Materializing param=model.layers.11.post_attention_layernorm.weight]Loading weights:  32%|███▏      | 127/398 [00:00<00:01, 171.09it/s, Materializing param=model.layers.11.post_attention_layernorm.weight]Loading weights:  32%|███▏      | 128/398 [00:00<00:01, 171.09it/s, Materializing param=model.layers.11.self_attn.k_norm.weight]        Loading weights:  32%|███▏      | 128/398 [00:00<00:01, 171.09it/s, Materializing param=model.layers.11.self_attn.k_norm.weight]Loading weights:  32%|███▏      | 129/398 [00:00<00:01, 171.09it/s, Materializing param=model.layers.11.self_attn.k_proj.weight]Loading weights:  32%|███▏      | 129/398 [00:00<00:01, 171.09it/s, Materializing param=model.layers.11.self_attn.k_proj.weight]Loading weights:  33%|███▎      | 130/398 [00:00<00:01, 171.09it/s, Materializing param=model.layers.11.self_attn.o_proj.weight]Loading weights:  33%|███▎      | 130/398 [00:00<00:01, 171.09it/s, Materializing param=model.layers.11.self_attn.o_proj.weight]Loading weights:  33%|███▎      | 131/398 [00:00<00:01, 171.09it/s, Materializing param=model.layers.11.self_attn.q_norm.weight]Loading weights:  33%|███▎      | 131/398 [00:00<00:01, 171.09it/s, Materializing param=model.layers.11.self_attn.q_norm.weight]Loading weights:  33%|███▎      | 132/398 [00:00<00:01, 171.09it/s, Materializing param=model.layers.11.self_attn.q_proj.weight]Loading weights:  33%|███▎      | 132/398 [00:00<00:01, 171.09it/s, Materializing param=model.layers.11.self_attn.q_proj.weight]Loading weights:  33%|███▎      | 133/398 [00:00<00:01, 171.09it/s, Materializing param=model.layers.11.self_attn.v_proj.weight]Loading weights:  33%|███▎      | 133/398 [00:00<00:01, 171.09it/s, Materializing param=model.layers.11.self_attn.v_proj.weight]Loading weights:  34%|███▎      | 134/398 [00:00<00:01, 171.09it/s, Materializing param=model.layers.12.input_layernorm.weight] Loading weights:  34%|███▎      | 134/398 [00:00<00:01, 171.09it/s, Materializing param=model.layers.12.input_layernorm.weight]Loading weights:  34%|███▍      | 135/398 [00:00<00:01, 171.09it/s, Materializing param=model.layers.12.mlp.down_proj.weight]  Loading weights:  34%|███▍      | 135/398 [00:00<00:01, 171.09it/s, Materializing param=model.layers.12.mlp.down_proj.weight]Loading weights:  34%|███▍      | 136/398 [00:00<00:01, 180.57it/s, Materializing param=model.layers.12.mlp.down_proj.weight]Loading weights:  34%|███▍      | 136/398 [00:00<00:01, 180.57it/s, Materializing param=model.layers.12.mlp.gate_proj.weight]Loading weights:  34%|███▍      | 136/398 [00:00<00:01, 180.57it/s, Materializing param=model.layers.12.mlp.gate_proj.weight]Loading weights:  34%|███▍      | 137/398 [00:00<00:01, 180.57it/s, Materializing param=model.layers.12.mlp.up_proj.weight]  Loading weights:  34%|███▍      | 137/398 [00:00<00:01, 180.57it/s, Materializing param=model.layers.12.mlp.up_proj.weight]Loading weights:  35%|███▍      | 138/398 [00:00<00:01, 180.57it/s, Materializing param=model.layers.12.post_attention_layernorm.weight]Loading weights:  35%|███▍      | 138/398 [00:00<00:01, 180.57it/s, Materializing param=model.layers.12.post_attention_layernorm.weight]Loading weights:  35%|███▍      | 139/398 [00:00<00:01, 180.57it/s, Materializing param=model.layers.12.self_attn.k_norm.weight]        Loading weights:  35%|███▍      | 139/398 [00:00<00:01, 180.57it/s, Materializing param=model.layers.12.self_attn.k_norm.weight]Loading weights:  35%|███▌      | 140/398 [00:00<00:01, 180.57it/s, Materializing param=model.layers.12.self_attn.k_proj.weight]Loading weights:  35%|███▌      | 140/398 [00:00<00:01, 180.57it/s, Materializing param=model.layers.12.self_attn.k_proj.weight]Loading weights:  35%|███▌      | 141/398 [00:00<00:01, 180.57it/s, Materializing param=model.layers.12.self_attn.o_proj.weight]Loading weights:  35%|███▌      | 141/398 [00:00<00:01, 180.57it/s, Materializing param=model.layers.12.self_attn.o_proj.weight]Loading weights:  36%|███▌      | 142/398 [00:00<00:01, 180.57it/s, Materializing param=model.layers.12.self_attn.q_norm.weight]Loading weights:  36%|███▌      | 142/398 [00:00<00:01, 180.57it/s, Materializing param=model.layers.12.self_attn.q_norm.weight]Loading weights:  36%|███▌      | 143/398 [00:00<00:01, 180.57it/s, Materializing param=model.layers.12.self_attn.q_proj.weight]Loading weights:  36%|███▌      | 143/398 [00:00<00:01, 180.57it/s, Materializing param=model.layers.12.self_attn.q_proj.weight]Loading weights:  36%|███▌      | 144/398 [00:00<00:01, 180.57it/s, Materializing param=model.layers.12.self_attn.v_proj.weight]Loading weights:  36%|███▌      | 144/398 [00:00<00:01, 180.57it/s, Materializing param=model.layers.12.self_attn.v_proj.weight]Loading weights:  36%|███▋      | 145/398 [00:00<00:01, 180.57it/s, Materializing param=model.layers.13.input_layernorm.weight] Loading weights:  36%|███▋      | 145/398 [00:00<00:01, 180.57it/s, Materializing param=model.layers.13.input_layernorm.weight]Loading weights:  37%|███▋      | 146/398 [00:00<00:01, 180.57it/s, Materializing param=model.layers.13.mlp.down_proj.weight]  Loading weights:  37%|███▋      | 146/398 [00:00<00:01, 180.57it/s, Materializing param=model.layers.13.mlp.down_proj.weight]Loading weights:  37%|███▋      | 147/398 [00:00<00:01, 180.57it/s, Materializing param=model.layers.13.mlp.gate_proj.weight]Loading weights:  37%|███▋      | 147/398 [00:00<00:01, 180.57it/s, Materializing param=model.layers.13.mlp.gate_proj.weight]Loading weights:  37%|███▋      | 148/398 [00:00<00:01, 180.57it/s, Materializing param=model.layers.13.mlp.up_proj.weight]  Loading weights:  37%|███▋      | 148/398 [00:00<00:01, 180.57it/s, Materializing param=model.layers.13.mlp.up_proj.weight]Loading weights:  37%|███▋      | 149/398 [00:00<00:01, 180.57it/s, Materializing param=model.layers.13.post_attention_layernorm.weight]Loading weights:  37%|███▋      | 149/398 [00:00<00:01, 180.57it/s, Materializing param=model.layers.13.post_attention_layernorm.weight]Loading weights:  38%|███▊      | 150/398 [00:00<00:01, 180.57it/s, Materializing param=model.layers.13.self_attn.k_norm.weight]        Loading weights:  38%|███▊      | 150/398 [00:00<00:01, 180.57it/s, Materializing param=model.layers.13.self_attn.k_norm.weight]Loading weights:  38%|███▊      | 151/398 [00:00<00:01, 180.57it/s, Materializing param=model.layers.13.self_attn.k_proj.weight]Loading weights:  38%|███▊      | 151/398 [00:00<00:01, 180.57it/s, Materializing param=model.layers.13.self_attn.k_proj.weight]Loading weights:  38%|███▊      | 152/398 [00:00<00:01, 180.57it/s, Materializing param=model.layers.13.self_attn.o_proj.weight]Loading weights:  38%|███▊      | 152/398 [00:01<00:01, 180.57it/s, Materializing param=model.layers.13.self_attn.o_proj.weight]Loading weights:  38%|███▊      | 153/398 [00:01<00:01, 180.57it/s, Materializing param=model.layers.13.self_attn.q_norm.weight]Loading weights:  38%|███▊      | 153/398 [00:01<00:01, 180.57it/s, Materializing param=model.layers.13.self_attn.q_norm.weight]Loading weights:  39%|███▊      | 154/398 [00:01<00:01, 180.57it/s, Materializing param=model.layers.13.self_attn.q_proj.weight]Loading weights:  39%|███▊      | 154/398 [00:01<00:01, 180.57it/s, Materializing param=model.layers.13.self_attn.q_proj.weight]Loading weights:  39%|███▉      | 155/398 [00:01<00:01, 180.08it/s, Materializing param=model.layers.13.self_attn.q_proj.weight]Loading weights:  39%|███▉      | 155/398 [00:01<00:01, 180.08it/s, Materializing param=model.layers.13.self_attn.v_proj.weight]Loading weights:  39%|███▉      | 155/398 [00:01<00:01, 180.08it/s, Materializing param=model.layers.13.self_attn.v_proj.weight]Loading weights:  39%|███▉      | 156/398 [00:01<00:01, 180.08it/s, Materializing param=model.layers.14.input_layernorm.weight] Loading weights:  39%|███▉      | 156/398 [00:01<00:01, 180.08it/s, Materializing param=model.layers.14.input_layernorm.weight]Loading weights:  39%|███▉      | 157/398 [00:01<00:01, 180.08it/s, Materializing param=model.layers.14.mlp.down_proj.weight]  Loading weights:  39%|███▉      | 157/398 [00:01<00:01, 180.08it/s, Materializing param=model.layers.14.mlp.down_proj.weight]Loading weights:  40%|███▉      | 158/398 [00:01<00:01, 180.08it/s, Materializing param=model.layers.14.mlp.gate_proj.weight]Loading weights:  40%|███▉      | 158/398 [00:01<00:01, 180.08it/s, Materializing param=model.layers.14.mlp.gate_proj.weight]Loading weights:  40%|███▉      | 159/398 [00:01<00:01, 180.08it/s, Materializing param=model.layers.14.mlp.up_proj.weight]  Loading weights:  40%|███▉      | 159/398 [00:01<00:01, 180.08it/s, Materializing param=model.layers.14.mlp.up_proj.weight]Loading weights:  40%|████      | 160/398 [00:01<00:01, 180.08it/s, Materializing param=model.layers.14.post_attention_layernorm.weight]Loading weights:  40%|████      | 160/398 [00:01<00:01, 180.08it/s, Materializing param=model.layers.14.post_attention_layernorm.weight]Loading weights:  40%|████      | 161/398 [00:01<00:01, 180.08it/s, Materializing param=model.layers.14.self_attn.k_norm.weight]        Loading weights:  40%|████      | 161/398 [00:01<00:01, 180.08it/s, Materializing param=model.layers.14.self_attn.k_norm.weight]Loading weights:  41%|████      | 162/398 [00:01<00:01, 180.08it/s, Materializing param=model.layers.14.self_attn.k_proj.weight]Loading weights:  41%|████      | 162/398 [00:01<00:01, 180.08it/s, Materializing param=model.layers.14.self_attn.k_proj.weight]Loading weights:  41%|████      | 163/398 [00:01<00:01, 180.08it/s, Materializing param=model.layers.14.self_attn.o_proj.weight]Loading weights:  41%|████      | 163/398 [00:01<00:01, 180.08it/s, Materializing param=model.layers.14.self_attn.o_proj.weight]Loading weights:  41%|████      | 164/398 [00:01<00:01, 180.08it/s, Materializing param=model.layers.14.self_attn.q_norm.weight]Loading weights:  41%|████      | 164/398 [00:01<00:01, 180.08it/s, Materializing param=model.layers.14.self_attn.q_norm.weight]Loading weights:  41%|████▏     | 165/398 [00:01<00:01, 180.08it/s, Materializing param=model.layers.14.self_attn.q_proj.weight]Loading weights:  41%|████▏     | 165/398 [00:01<00:01, 180.08it/s, Materializing param=model.layers.14.self_attn.q_proj.weight]Loading weights:  42%|████▏     | 166/398 [00:01<00:01, 180.08it/s, Materializing param=model.layers.14.self_attn.v_proj.weight]Loading weights:  42%|████▏     | 166/398 [00:01<00:01, 180.08it/s, Materializing param=model.layers.14.self_attn.v_proj.weight]Loading weights:  42%|████▏     | 167/398 [00:01<00:01, 180.08it/s, Materializing param=model.layers.15.input_layernorm.weight] Loading weights:  42%|████▏     | 167/398 [00:01<00:01, 180.08it/s, Materializing param=model.layers.15.input_layernorm.weight]Loading weights:  42%|████▏     | 168/398 [00:01<00:01, 180.08it/s, Materializing param=model.layers.15.mlp.down_proj.weight]  Loading weights:  42%|████▏     | 168/398 [00:01<00:01, 180.08it/s, Materializing param=model.layers.15.mlp.down_proj.weight]Loading weights:  42%|████▏     | 169/398 [00:01<00:01, 180.08it/s, Materializing param=model.layers.15.mlp.gate_proj.weight]Loading weights:  42%|████▏     | 169/398 [00:01<00:01, 180.08it/s, Materializing param=model.layers.15.mlp.gate_proj.weight]Loading weights:  43%|████▎     | 170/398 [00:01<00:01, 180.08it/s, Materializing param=model.layers.15.mlp.up_proj.weight]  Loading weights:  43%|████▎     | 170/398 [00:01<00:01, 180.08it/s, Materializing param=model.layers.15.mlp.up_proj.weight]Loading weights:  43%|████▎     | 171/398 [00:01<00:01, 180.08it/s, Materializing param=model.layers.15.post_attention_layernorm.weight]Loading weights:  43%|████▎     | 171/398 [00:01<00:01, 180.08it/s, Materializing param=model.layers.15.post_attention_layernorm.weight]Loading weights:  43%|████▎     | 172/398 [00:01<00:01, 180.08it/s, Materializing param=model.layers.15.self_attn.k_norm.weight]        Loading weights:  43%|████▎     | 172/398 [00:01<00:01, 180.08it/s, Materializing param=model.layers.15.self_attn.k_norm.weight]Loading weights:  43%|████▎     | 173/398 [00:01<00:01, 180.08it/s, Materializing param=model.layers.15.self_attn.k_proj.weight]Loading weights:  43%|████▎     | 173/398 [00:01<00:01, 180.08it/s, Materializing param=model.layers.15.self_attn.k_proj.weight]Loading weights:  44%|████▎     | 174/398 [00:01<00:01, 178.95it/s, Materializing param=model.layers.15.self_attn.k_proj.weight]Loading weights:  44%|████▎     | 174/398 [00:01<00:01, 178.95it/s, Materializing param=model.layers.15.self_attn.o_proj.weight]Loading weights:  44%|████▎     | 174/398 [00:01<00:01, 178.95it/s, Materializing param=model.layers.15.self_attn.o_proj.weight]Loading weights:  44%|████▍     | 175/398 [00:01<00:01, 178.95it/s, Materializing param=model.layers.15.self_attn.q_norm.weight]Loading weights:  44%|████▍     | 175/398 [00:01<00:01, 178.95it/s, Materializing param=model.layers.15.self_attn.q_norm.weight]Loading weights:  44%|████▍     | 176/398 [00:01<00:01, 178.95it/s, Materializing param=model.layers.15.self_attn.q_proj.weight]Loading weights:  44%|████▍     | 176/398 [00:01<00:01, 178.95it/s, Materializing param=model.layers.15.self_attn.q_proj.weight]Loading weights:  44%|████▍     | 177/398 [00:01<00:01, 178.95it/s, Materializing param=model.layers.15.self_attn.v_proj.weight]Loading weights:  44%|████▍     | 177/398 [00:01<00:01, 178.95it/s, Materializing param=model.layers.15.self_attn.v_proj.weight]Loading weights:  45%|████▍     | 178/398 [00:01<00:01, 178.95it/s, Materializing param=model.layers.16.input_layernorm.weight] Loading weights:  45%|████▍     | 178/398 [00:01<00:01, 178.95it/s, Materializing param=model.layers.16.input_layernorm.weight]Loading weights:  45%|████▍     | 179/398 [00:01<00:01, 178.95it/s, Materializing param=model.layers.16.mlp.down_proj.weight]  Loading weights:  45%|████▍     | 179/398 [00:01<00:01, 178.95it/s, Materializing param=model.layers.16.mlp.down_proj.weight]Loading weights:  45%|████▌     | 180/398 [00:01<00:01, 178.95it/s, Materializing param=model.layers.16.mlp.gate_proj.weight]Loading weights:  45%|████▌     | 180/398 [00:01<00:01, 178.95it/s, Materializing param=model.layers.16.mlp.gate_proj.weight]Loading weights:  45%|████▌     | 181/398 [00:01<00:01, 178.95it/s, Materializing param=model.layers.16.mlp.up_proj.weight]  Loading weights:  45%|████▌     | 181/398 [00:01<00:01, 178.95it/s, Materializing param=model.layers.16.mlp.up_proj.weight]Loading weights:  46%|████▌     | 182/398 [00:01<00:01, 178.95it/s, Materializing param=model.layers.16.post_attention_layernorm.weight]Loading weights:  46%|████▌     | 182/398 [00:01<00:01, 178.95it/s, Materializing param=model.layers.16.post_attention_layernorm.weight]Loading weights:  46%|████▌     | 183/398 [00:01<00:01, 178.95it/s, Materializing param=model.layers.16.self_attn.k_norm.weight]        Loading weights:  46%|████▌     | 183/398 [00:01<00:01, 178.95it/s, Materializing param=model.layers.16.self_attn.k_norm.weight]Loading weights:  46%|████▌     | 184/398 [00:01<00:01, 178.95it/s, Materializing param=model.layers.16.self_attn.k_proj.weight]Loading weights:  46%|████▌     | 184/398 [00:01<00:01, 178.95it/s, Materializing param=model.layers.16.self_attn.k_proj.weight]Loading weights:  46%|████▋     | 185/398 [00:01<00:01, 178.95it/s, Materializing param=model.layers.16.self_attn.o_proj.weight]Loading weights:  46%|████▋     | 185/398 [00:01<00:01, 178.95it/s, Materializing param=model.layers.16.self_attn.o_proj.weight]Loading weights:  47%|████▋     | 186/398 [00:01<00:01, 178.95it/s, Materializing param=model.layers.16.self_attn.q_norm.weight]Loading weights:  47%|████▋     | 186/398 [00:01<00:01, 178.95it/s, Materializing param=model.layers.16.self_attn.q_norm.weight]Loading weights:  47%|████▋     | 187/398 [00:01<00:01, 178.95it/s, Materializing param=model.layers.16.self_attn.q_proj.weight]Loading weights:  47%|████▋     | 187/398 [00:01<00:01, 178.95it/s, Materializing param=model.layers.16.self_attn.q_proj.weight]Loading weights:  47%|████▋     | 188/398 [00:01<00:01, 178.95it/s, Materializing param=model.layers.16.self_attn.v_proj.weight]Loading weights:  47%|████▋     | 188/398 [00:01<00:01, 178.95it/s, Materializing param=model.layers.16.self_attn.v_proj.weight]Loading weights:  47%|████▋     | 189/398 [00:01<00:01, 178.95it/s, Materializing param=model.layers.17.input_layernorm.weight] Loading weights:  47%|████▋     | 189/398 [00:01<00:01, 178.95it/s, Materializing param=model.layers.17.input_layernorm.weight]Loading weights:  48%|████▊     | 190/398 [00:01<00:01, 178.95it/s, Materializing param=model.layers.17.mlp.down_proj.weight]  Loading weights:  48%|████▊     | 190/398 [00:01<00:01, 178.95it/s, Materializing param=model.layers.17.mlp.down_proj.weight]Loading weights:  48%|████▊     | 191/398 [00:01<00:01, 178.95it/s, Materializing param=model.layers.17.mlp.gate_proj.weight]Loading weights:  48%|████▊     | 191/398 [00:01<00:01, 178.95it/s, Materializing param=model.layers.17.mlp.gate_proj.weight]Loading weights:  48%|████▊     | 192/398 [00:01<00:01, 178.95it/s, Materializing param=model.layers.17.mlp.up_proj.weight]  Loading weights:  48%|████▊     | 192/398 [00:01<00:01, 178.95it/s, Materializing param=model.layers.17.mlp.up_proj.weight]Loading weights:  48%|████▊     | 193/398 [00:01<00:01, 173.34it/s, Materializing param=model.layers.17.mlp.up_proj.weight]Loading weights:  48%|████▊     | 193/398 [00:01<00:01, 173.34it/s, Materializing param=model.layers.17.post_attention_layernorm.weight]Loading weights:  48%|████▊     | 193/398 [00:01<00:01, 173.34it/s, Materializing param=model.layers.17.post_attention_layernorm.weight]Loading weights:  49%|████▊     | 194/398 [00:01<00:01, 173.34it/s, Materializing param=model.layers.17.self_attn.k_norm.weight]        Loading weights:  49%|████▊     | 194/398 [00:01<00:01, 173.34it/s, Materializing param=model.layers.17.self_attn.k_norm.weight]Loading weights:  49%|████▉     | 195/398 [00:01<00:01, 173.34it/s, Materializing param=model.layers.17.self_attn.k_proj.weight]Loading weights:  49%|████▉     | 195/398 [00:01<00:01, 173.34it/s, Materializing param=model.layers.17.self_attn.k_proj.weight]Loading weights:  49%|████▉     | 196/398 [00:01<00:01, 173.34it/s, Materializing param=model.layers.17.self_attn.o_proj.weight]Loading weights:  49%|████▉     | 196/398 [00:01<00:01, 173.34it/s, Materializing param=model.layers.17.self_attn.o_proj.weight]Loading weights:  49%|████▉     | 197/398 [00:01<00:01, 173.34it/s, Materializing param=model.layers.17.self_attn.q_norm.weight]Loading weights:  49%|████▉     | 197/398 [00:01<00:01, 173.34it/s, Materializing param=model.layers.17.self_attn.q_norm.weight]Loading weights:  50%|████▉     | 198/398 [00:01<00:01, 173.34it/s, Materializing param=model.layers.17.self_attn.q_proj.weight]Loading weights:  50%|████▉     | 198/398 [00:01<00:01, 173.34it/s, Materializing param=model.layers.17.self_attn.q_proj.weight]Loading weights:  50%|█████     | 199/398 [00:01<00:01, 173.34it/s, Materializing param=model.layers.17.self_attn.v_proj.weight]Loading weights:  50%|█████     | 199/398 [00:01<00:01, 173.34it/s, Materializing param=model.layers.17.self_attn.v_proj.weight]Loading weights:  50%|█████     | 200/398 [00:01<00:01, 173.34it/s, Materializing param=model.layers.18.input_layernorm.weight] Loading weights:  50%|█████     | 200/398 [00:01<00:01, 173.34it/s, Materializing param=model.layers.18.input_layernorm.weight]Loading weights:  51%|█████     | 201/398 [00:01<00:01, 173.34it/s, Materializing param=model.layers.18.mlp.down_proj.weight]  Loading weights:  51%|█████     | 201/398 [00:01<00:01, 173.34it/s, Materializing param=model.layers.18.mlp.down_proj.weight]Loading weights:  51%|█████     | 202/398 [00:01<00:01, 173.34it/s, Materializing param=model.layers.18.mlp.gate_proj.weight]Loading weights:  51%|█████     | 202/398 [00:01<00:01, 173.34it/s, Materializing param=model.layers.18.mlp.gate_proj.weight]Loading weights:  51%|█████     | 203/398 [00:01<00:01, 173.34it/s, Materializing param=model.layers.18.mlp.up_proj.weight]  Loading weights:  51%|█████     | 203/398 [00:01<00:01, 173.34it/s, Materializing param=model.layers.18.mlp.up_proj.weight]Loading weights:  51%|█████▏    | 204/398 [00:01<00:01, 173.34it/s, Materializing param=model.layers.18.post_attention_layernorm.weight]Loading weights:  51%|█████▏    | 204/398 [00:01<00:01, 173.34it/s, Materializing param=model.layers.18.post_attention_layernorm.weight]Loading weights:  52%|█████▏    | 205/398 [00:01<00:01, 173.34it/s, Materializing param=model.layers.18.self_attn.k_norm.weight]        Loading weights:  52%|█████▏    | 205/398 [00:01<00:01, 173.34it/s, Materializing param=model.layers.18.self_attn.k_norm.weight]Loading weights:  52%|█████▏    | 206/398 [00:01<00:01, 173.34it/s, Materializing param=model.layers.18.self_attn.k_proj.weight]Loading weights:  52%|█████▏    | 206/398 [00:01<00:01, 173.34it/s, Materializing param=model.layers.18.self_attn.k_proj.weight]Loading weights:  52%|█████▏    | 207/398 [00:01<00:01, 173.34it/s, Materializing param=model.layers.18.self_attn.o_proj.weight]Loading weights:  52%|█████▏    | 207/398 [00:01<00:01, 173.34it/s, Materializing param=model.layers.18.self_attn.o_proj.weight]Loading weights:  52%|█████▏    | 208/398 [00:01<00:01, 173.34it/s, Materializing param=model.layers.18.self_attn.q_norm.weight]Loading weights:  52%|█████▏    | 208/398 [00:01<00:01, 173.34it/s, Materializing param=model.layers.18.self_attn.q_norm.weight]Loading weights:  53%|█████▎    | 209/398 [00:01<00:01, 173.34it/s, Materializing param=model.layers.18.self_attn.q_proj.weight]Loading weights:  53%|█████▎    | 209/398 [00:01<00:01, 173.34it/s, Materializing param=model.layers.18.self_attn.q_proj.weight]Loading weights:  53%|█████▎    | 210/398 [00:01<00:01, 173.34it/s, Materializing param=model.layers.18.self_attn.v_proj.weight]Loading weights:  53%|█████▎    | 210/398 [00:01<00:01, 173.34it/s, Materializing param=model.layers.18.self_attn.v_proj.weight]Loading weights:  53%|█████▎    | 211/398 [00:01<00:01, 173.34it/s, Materializing param=model.layers.19.input_layernorm.weight] Loading weights:  53%|█████▎    | 211/398 [00:01<00:01, 173.34it/s, Materializing param=model.layers.19.input_layernorm.weight]Loading weights:  53%|█████▎    | 212/398 [00:01<00:01, 173.34it/s, Materializing param=model.layers.19.mlp.down_proj.weight]  Loading weights:  53%|█████▎    | 212/398 [00:01<00:01, 173.34it/s, Materializing param=model.layers.19.mlp.down_proj.weight]Loading weights:  54%|█████▎    | 213/398 [00:01<00:01, 173.34it/s, Materializing param=model.layers.19.mlp.gate_proj.weight]Loading weights:  54%|█████▎    | 213/398 [00:01<00:01, 173.34it/s, Materializing param=model.layers.19.mlp.gate_proj.weight]Loading weights:  54%|█████▍    | 214/398 [00:01<00:01, 181.34it/s, Materializing param=model.layers.19.mlp.gate_proj.weight]Loading weights:  54%|█████▍    | 214/398 [00:01<00:01, 181.34it/s, Materializing param=model.layers.19.mlp.up_proj.weight]  Loading weights:  54%|█████▍    | 214/398 [00:01<00:01, 181.34it/s, Materializing param=model.layers.19.mlp.up_proj.weight]Loading weights:  54%|█████▍    | 215/398 [00:01<00:01, 181.34it/s, Materializing param=model.layers.19.post_attention_layernorm.weight]Loading weights:  54%|█████▍    | 215/398 [00:01<00:01, 181.34it/s, Materializing param=model.layers.19.post_attention_layernorm.weight]Loading weights:  54%|█████▍    | 216/398 [00:01<00:01, 181.34it/s, Materializing param=model.layers.19.self_attn.k_norm.weight]        Loading weights:  54%|█████▍    | 216/398 [00:01<00:01, 181.34it/s, Materializing param=model.layers.19.self_attn.k_norm.weight]Loading weights:  55%|█████▍    | 217/398 [00:01<00:00, 181.34it/s, Materializing param=model.layers.19.self_attn.k_proj.weight]Loading weights:  55%|█████▍    | 217/398 [00:01<00:00, 181.34it/s, Materializing param=model.layers.19.self_attn.k_proj.weight]Loading weights:  55%|█████▍    | 218/398 [00:01<00:00, 181.34it/s, Materializing param=model.layers.19.self_attn.o_proj.weight]Loading weights:  55%|█████▍    | 218/398 [00:01<00:00, 181.34it/s, Materializing param=model.layers.19.self_attn.o_proj.weight]Loading weights:  55%|█████▌    | 219/398 [00:01<00:00, 181.34it/s, Materializing param=model.layers.19.self_attn.q_norm.weight]Loading weights:  55%|█████▌    | 219/398 [00:01<00:00, 181.34it/s, Materializing param=model.layers.19.self_attn.q_norm.weight]Loading weights:  55%|█████▌    | 220/398 [00:01<00:00, 181.34it/s, Materializing param=model.layers.19.self_attn.q_proj.weight]Loading weights:  55%|█████▌    | 220/398 [00:01<00:00, 181.34it/s, Materializing param=model.layers.19.self_attn.q_proj.weight]Loading weights:  56%|█████▌    | 221/398 [00:01<00:00, 181.34it/s, Materializing param=model.layers.19.self_attn.v_proj.weight]Loading weights:  56%|█████▌    | 221/398 [00:01<00:00, 181.34it/s, Materializing param=model.layers.19.self_attn.v_proj.weight]Loading weights:  56%|█████▌    | 222/398 [00:01<00:00, 181.34it/s, Materializing param=model.layers.20.input_layernorm.weight] Loading weights:  56%|█████▌    | 222/398 [00:01<00:00, 181.34it/s, Materializing param=model.layers.20.input_layernorm.weight]Loading weights:  56%|█████▌    | 223/398 [00:01<00:00, 181.34it/s, Materializing param=model.layers.20.mlp.down_proj.weight]  Loading weights:  56%|█████▌    | 223/398 [00:01<00:00, 181.34it/s, Materializing param=model.layers.20.mlp.down_proj.weight]Loading weights:  56%|█████▋    | 224/398 [00:01<00:00, 181.34it/s, Materializing param=model.layers.20.mlp.gate_proj.weight]Loading weights:  56%|█████▋    | 224/398 [00:01<00:00, 181.34it/s, Materializing param=model.layers.20.mlp.gate_proj.weight]Loading weights:  57%|█████▋    | 225/398 [00:01<00:00, 181.34it/s, Materializing param=model.layers.20.mlp.up_proj.weight]  Loading weights:  57%|█████▋    | 225/398 [00:01<00:00, 181.34it/s, Materializing param=model.layers.20.mlp.up_proj.weight]Loading weights:  57%|█████▋    | 226/398 [00:01<00:00, 181.34it/s, Materializing param=model.layers.20.post_attention_layernorm.weight]Loading weights:  57%|█████▋    | 226/398 [00:01<00:00, 181.34it/s, Materializing param=model.layers.20.post_attention_layernorm.weight]Loading weights:  57%|█████▋    | 227/398 [00:01<00:00, 181.34it/s, Materializing param=model.layers.20.self_attn.k_norm.weight]        Loading weights:  57%|█████▋    | 227/398 [00:01<00:00, 181.34it/s, Materializing param=model.layers.20.self_attn.k_norm.weight]Loading weights:  57%|█████▋    | 228/398 [00:01<00:00, 181.34it/s, Materializing param=model.layers.20.self_attn.k_proj.weight]Loading weights:  57%|█████▋    | 228/398 [00:01<00:00, 181.34it/s, Materializing param=model.layers.20.self_attn.k_proj.weight]Loading weights:  58%|█████▊    | 229/398 [00:01<00:00, 181.34it/s, Materializing param=model.layers.20.self_attn.o_proj.weight]Loading weights:  58%|█████▊    | 229/398 [00:01<00:00, 181.34it/s, Materializing param=model.layers.20.self_attn.o_proj.weight]Loading weights:  58%|█████▊    | 230/398 [00:01<00:00, 181.34it/s, Materializing param=model.layers.20.self_attn.q_norm.weight]Loading weights:  58%|█████▊    | 230/398 [00:01<00:00, 181.34it/s, Materializing param=model.layers.20.self_attn.q_norm.weight]Loading weights:  58%|█████▊    | 231/398 [00:01<00:00, 181.34it/s, Materializing param=model.layers.20.self_attn.q_proj.weight]Loading weights:  58%|█████▊    | 231/398 [00:01<00:00, 181.34it/s, Materializing param=model.layers.20.self_attn.q_proj.weight]Loading weights:  58%|█████▊    | 232/398 [00:01<00:00, 181.34it/s, Materializing param=model.layers.20.self_attn.v_proj.weight]Loading weights:  58%|█████▊    | 232/398 [00:01<00:00, 181.34it/s, Materializing param=model.layers.20.self_attn.v_proj.weight]Loading weights:  59%|█████▊    | 233/398 [00:01<00:00, 181.34it/s, Materializing param=model.layers.21.input_layernorm.weight] Loading weights:  59%|█████▊    | 233/398 [00:01<00:00, 181.34it/s, Materializing param=model.layers.21.input_layernorm.weight]Loading weights:  59%|█████▉    | 234/398 [00:01<00:00, 184.05it/s, Materializing param=model.layers.21.input_layernorm.weight]Loading weights:  59%|█████▉    | 234/398 [00:01<00:00, 184.05it/s, Materializing param=model.layers.21.mlp.down_proj.weight]  Loading weights:  59%|█████▉    | 234/398 [00:01<00:00, 184.05it/s, Materializing param=model.layers.21.mlp.down_proj.weight]Loading weights:  59%|█████▉    | 235/398 [00:01<00:00, 184.05it/s, Materializing param=model.layers.21.mlp.gate_proj.weight]Loading weights:  59%|█████▉    | 235/398 [00:01<00:00, 184.05it/s, Materializing param=model.layers.21.mlp.gate_proj.weight]Loading weights:  59%|█████▉    | 236/398 [00:01<00:00, 184.05it/s, Materializing param=model.layers.21.mlp.up_proj.weight]  Loading weights:  59%|█████▉    | 236/398 [00:01<00:00, 184.05it/s, Materializing param=model.layers.21.mlp.up_proj.weight]Loading weights:  60%|█████▉    | 237/398 [00:01<00:00, 184.05it/s, Materializing param=model.layers.21.post_attention_layernorm.weight]Loading weights:  60%|█████▉    | 237/398 [00:01<00:00, 184.05it/s, Materializing param=model.layers.21.post_attention_layernorm.weight]Loading weights:  60%|█████▉    | 238/398 [00:01<00:00, 184.05it/s, Materializing param=model.layers.21.self_attn.k_norm.weight]        Loading weights:  60%|█████▉    | 238/398 [00:01<00:00, 184.05it/s, Materializing param=model.layers.21.self_attn.k_norm.weight]Loading weights:  60%|██████    | 239/398 [00:01<00:00, 184.05it/s, Materializing param=model.layers.21.self_attn.k_proj.weight]Loading weights:  60%|██████    | 239/398 [00:01<00:00, 184.05it/s, Materializing param=model.layers.21.self_attn.k_proj.weight]Loading weights:  60%|██████    | 240/398 [00:01<00:00, 184.05it/s, Materializing param=model.layers.21.self_attn.o_proj.weight]Loading weights:  60%|██████    | 240/398 [00:01<00:00, 184.05it/s, Materializing param=model.layers.21.self_attn.o_proj.weight]Loading weights:  61%|██████    | 241/398 [00:01<00:00, 184.05it/s, Materializing param=model.layers.21.self_attn.q_norm.weight]Loading weights:  61%|██████    | 241/398 [00:01<00:00, 184.05it/s, Materializing param=model.layers.21.self_attn.q_norm.weight]Loading weights:  61%|██████    | 242/398 [00:01<00:00, 184.05it/s, Materializing param=model.layers.21.self_attn.q_proj.weight]Loading weights:  61%|██████    | 242/398 [00:01<00:00, 184.05it/s, Materializing param=model.layers.21.self_attn.q_proj.weight]Loading weights:  61%|██████    | 243/398 [00:01<00:00, 184.05it/s, Materializing param=model.layers.21.self_attn.v_proj.weight]Loading weights:  61%|██████    | 243/398 [00:01<00:00, 184.05it/s, Materializing param=model.layers.21.self_attn.v_proj.weight]Loading weights:  61%|██████▏   | 244/398 [00:01<00:00, 184.05it/s, Materializing param=model.layers.22.input_layernorm.weight] Loading weights:  61%|██████▏   | 244/398 [00:01<00:00, 184.05it/s, Materializing param=model.layers.22.input_layernorm.weight]Loading weights:  62%|██████▏   | 245/398 [00:01<00:00, 184.05it/s, Materializing param=model.layers.22.mlp.down_proj.weight]  Loading weights:  62%|██████▏   | 245/398 [00:01<00:00, 184.05it/s, Materializing param=model.layers.22.mlp.down_proj.weight]Loading weights:  62%|██████▏   | 246/398 [00:01<00:00, 184.05it/s, Materializing param=model.layers.22.mlp.gate_proj.weight]Loading weights:  62%|██████▏   | 246/398 [00:01<00:00, 184.05it/s, Materializing param=model.layers.22.mlp.gate_proj.weight]Loading weights:  62%|██████▏   | 247/398 [00:01<00:00, 184.05it/s, Materializing param=model.layers.22.mlp.up_proj.weight]  Loading weights:  62%|██████▏   | 247/398 [00:01<00:00, 184.05it/s, Materializing param=model.layers.22.mlp.up_proj.weight]Loading weights:  62%|██████▏   | 248/398 [00:01<00:00, 184.05it/s, Materializing param=model.layers.22.post_attention_layernorm.weight]Loading weights:  62%|██████▏   | 248/398 [00:01<00:00, 184.05it/s, Materializing param=model.layers.22.post_attention_layernorm.weight]Loading weights:  63%|██████▎   | 249/398 [00:01<00:00, 184.05it/s, Materializing param=model.layers.22.self_attn.k_norm.weight]        Loading weights:  63%|██████▎   | 249/398 [00:01<00:00, 184.05it/s, Materializing param=model.layers.22.self_attn.k_norm.weight]Loading weights:  63%|██████▎   | 250/398 [00:01<00:00, 184.05it/s, Materializing param=model.layers.22.self_attn.k_proj.weight]Loading weights:  63%|██████▎   | 250/398 [00:01<00:00, 184.05it/s, Materializing param=model.layers.22.self_attn.k_proj.weight]Loading weights:  63%|██████▎   | 251/398 [00:01<00:00, 184.05it/s, Materializing param=model.layers.22.self_attn.o_proj.weight]Loading weights:  63%|██████▎   | 251/398 [00:01<00:00, 184.05it/s, Materializing param=model.layers.22.self_attn.o_proj.weight]Loading weights:  63%|██████▎   | 252/398 [00:01<00:00, 184.05it/s, Materializing param=model.layers.22.self_attn.q_norm.weight]Loading weights:  63%|██████▎   | 252/398 [00:01<00:00, 184.05it/s, Materializing param=model.layers.22.self_attn.q_norm.weight]Loading weights:  64%|██████▎   | 253/398 [00:01<00:00, 184.08it/s, Materializing param=model.layers.22.self_attn.q_norm.weight]Loading weights:  64%|██████▎   | 253/398 [00:01<00:00, 184.08it/s, Materializing param=model.layers.22.self_attn.q_proj.weight]Loading weights:  64%|██████▎   | 253/398 [00:01<00:00, 184.08it/s, Materializing param=model.layers.22.self_attn.q_proj.weight]Loading weights:  64%|██████▍   | 254/398 [00:01<00:00, 184.08it/s, Materializing param=model.layers.22.self_attn.v_proj.weight]Loading weights:  64%|██████▍   | 254/398 [00:01<00:00, 184.08it/s, Materializing param=model.layers.22.self_attn.v_proj.weight]Loading weights:  64%|██████▍   | 255/398 [00:01<00:00, 184.08it/s, Materializing param=model.layers.23.input_layernorm.weight] Loading weights:  64%|██████▍   | 255/398 [00:01<00:00, 184.08it/s, Materializing param=model.layers.23.input_layernorm.weight]Loading weights:  64%|██████▍   | 256/398 [00:01<00:00, 184.08it/s, Materializing param=model.layers.23.mlp.down_proj.weight]  Loading weights:  64%|██████▍   | 256/398 [00:01<00:00, 184.08it/s, Materializing param=model.layers.23.mlp.down_proj.weight]Loading weights:  65%|██████▍   | 257/398 [00:01<00:00, 184.08it/s, Materializing param=model.layers.23.mlp.gate_proj.weight]Loading weights:  65%|██████▍   | 257/398 [00:01<00:00, 184.08it/s, Materializing param=model.layers.23.mlp.gate_proj.weight]Loading weights:  65%|██████▍   | 258/398 [00:01<00:00, 184.08it/s, Materializing param=model.layers.23.mlp.up_proj.weight]  Loading weights:  65%|██████▍   | 258/398 [00:01<00:00, 184.08it/s, Materializing param=model.layers.23.mlp.up_proj.weight]Loading weights:  65%|██████▌   | 259/398 [00:01<00:00, 184.08it/s, Materializing param=model.layers.23.post_attention_layernorm.weight]Loading weights:  65%|██████▌   | 259/398 [00:01<00:00, 184.08it/s, Materializing param=model.layers.23.post_attention_layernorm.weight]Loading weights:  65%|██████▌   | 260/398 [00:01<00:00, 184.08it/s, Materializing param=model.layers.23.self_attn.k_norm.weight]        Loading weights:  65%|██████▌   | 260/398 [00:01<00:00, 184.08it/s, Materializing param=model.layers.23.self_attn.k_norm.weight]Loading weights:  66%|██████▌   | 261/398 [00:01<00:00, 184.08it/s, Materializing param=model.layers.23.self_attn.k_proj.weight]Loading weights:  66%|██████▌   | 261/398 [00:01<00:00, 184.08it/s, Materializing param=model.layers.23.self_attn.k_proj.weight]Loading weights:  66%|██████▌   | 262/398 [00:01<00:00, 184.08it/s, Materializing param=model.layers.23.self_attn.o_proj.weight]Loading weights:  66%|██████▌   | 262/398 [00:01<00:00, 184.08it/s, Materializing param=model.layers.23.self_attn.o_proj.weight]Loading weights:  66%|██████▌   | 263/398 [00:01<00:00, 184.08it/s, Materializing param=model.layers.23.self_attn.q_norm.weight]Loading weights:  66%|██████▌   | 263/398 [00:01<00:00, 184.08it/s, Materializing param=model.layers.23.self_attn.q_norm.weight]Loading weights:  66%|██████▋   | 264/398 [00:01<00:00, 184.08it/s, Materializing param=model.layers.23.self_attn.q_proj.weight]Loading weights:  66%|██████▋   | 264/398 [00:01<00:00, 184.08it/s, Materializing param=model.layers.23.self_attn.q_proj.weight]Loading weights:  67%|██████▋   | 265/398 [00:01<00:00, 184.08it/s, Materializing param=model.layers.23.self_attn.v_proj.weight]Loading weights:  67%|██████▋   | 265/398 [00:01<00:00, 184.08it/s, Materializing param=model.layers.23.self_attn.v_proj.weight]Loading weights:  67%|██████▋   | 266/398 [00:01<00:00, 184.08it/s, Materializing param=model.layers.24.input_layernorm.weight] Loading weights:  67%|██████▋   | 266/398 [00:01<00:00, 184.08it/s, Materializing param=model.layers.24.input_layernorm.weight]Loading weights:  67%|██████▋   | 267/398 [00:01<00:00, 184.08it/s, Materializing param=model.layers.24.mlp.down_proj.weight]  Loading weights:  67%|██████▋   | 267/398 [00:01<00:00, 184.08it/s, Materializing param=model.layers.24.mlp.down_proj.weight]Loading weights:  67%|██████▋   | 268/398 [00:01<00:00, 184.08it/s, Materializing param=model.layers.24.mlp.gate_proj.weight]Loading weights:  67%|██████▋   | 268/398 [00:01<00:00, 184.08it/s, Materializing param=model.layers.24.mlp.gate_proj.weight]Loading weights:  68%|██████▊   | 269/398 [00:01<00:00, 184.08it/s, Materializing param=model.layers.24.mlp.up_proj.weight]  Loading weights:  68%|██████▊   | 269/398 [00:01<00:00, 184.08it/s, Materializing param=model.layers.24.mlp.up_proj.weight]Loading weights:  68%|██████▊   | 270/398 [00:01<00:00, 184.08it/s, Materializing param=model.layers.24.post_attention_layernorm.weight]Loading weights:  68%|██████▊   | 270/398 [00:01<00:00, 184.08it/s, Materializing param=model.layers.24.post_attention_layernorm.weight]Loading weights:  68%|██████▊   | 271/398 [00:01<00:00, 184.08it/s, Materializing param=model.layers.24.self_attn.k_norm.weight]        Loading weights:  68%|██████▊   | 271/398 [00:01<00:00, 184.08it/s, Materializing param=model.layers.24.self_attn.k_norm.weight]Loading weights:  68%|██████▊   | 272/398 [00:01<00:00, 183.95it/s, Materializing param=model.layers.24.self_attn.k_norm.weight]Loading weights:  68%|██████▊   | 272/398 [00:01<00:00, 183.95it/s, Materializing param=model.layers.24.self_attn.k_proj.weight]Loading weights:  68%|██████▊   | 272/398 [00:01<00:00, 183.95it/s, Materializing param=model.layers.24.self_attn.k_proj.weight]Loading weights:  69%|██████▊   | 273/398 [00:01<00:00, 183.95it/s, Materializing param=model.layers.24.self_attn.o_proj.weight]Loading weights:  69%|██████▊   | 273/398 [00:01<00:00, 183.95it/s, Materializing param=model.layers.24.self_attn.o_proj.weight]Loading weights:  69%|██████▉   | 274/398 [00:01<00:00, 183.95it/s, Materializing param=model.layers.24.self_attn.q_norm.weight]Loading weights:  69%|██████▉   | 274/398 [00:01<00:00, 183.95it/s, Materializing param=model.layers.24.self_attn.q_norm.weight]Loading weights:  69%|██████▉   | 275/398 [00:01<00:00, 183.95it/s, Materializing param=model.layers.24.self_attn.q_proj.weight]Loading weights:  69%|██████▉   | 275/398 [00:01<00:00, 183.95it/s, Materializing param=model.layers.24.self_attn.q_proj.weight]Loading weights:  69%|██████▉   | 276/398 [00:01<00:00, 183.95it/s, Materializing param=model.layers.24.self_attn.v_proj.weight]Loading weights:  69%|██████▉   | 276/398 [00:01<00:00, 183.95it/s, Materializing param=model.layers.24.self_attn.v_proj.weight]Loading weights:  70%|██████▉   | 277/398 [00:01<00:00, 183.95it/s, Materializing param=model.layers.25.input_layernorm.weight] Loading weights:  70%|██████▉   | 277/398 [00:01<00:00, 183.95it/s, Materializing param=model.layers.25.input_layernorm.weight]Loading weights:  70%|██████▉   | 278/398 [00:01<00:00, 183.95it/s, Materializing param=model.layers.25.mlp.down_proj.weight]  Loading weights:  70%|██████▉   | 278/398 [00:01<00:00, 183.95it/s, Materializing param=model.layers.25.mlp.down_proj.weight]Loading weights:  70%|███████   | 279/398 [00:01<00:00, 183.95it/s, Materializing param=model.layers.25.mlp.gate_proj.weight]Loading weights:  70%|███████   | 279/398 [00:01<00:00, 183.95it/s, Materializing param=model.layers.25.mlp.gate_proj.weight]Loading weights:  70%|███████   | 280/398 [00:01<00:00, 183.95it/s, Materializing param=model.layers.25.mlp.up_proj.weight]  Loading weights:  70%|███████   | 280/398 [00:01<00:00, 183.95it/s, Materializing param=model.layers.25.mlp.up_proj.weight]Loading weights:  71%|███████   | 281/398 [00:01<00:00, 183.95it/s, Materializing param=model.layers.25.post_attention_layernorm.weight]Loading weights:  71%|███████   | 281/398 [00:01<00:00, 183.95it/s, Materializing param=model.layers.25.post_attention_layernorm.weight]Loading weights:  71%|███████   | 282/398 [00:01<00:00, 183.95it/s, Materializing param=model.layers.25.self_attn.k_norm.weight]        Loading weights:  71%|███████   | 282/398 [00:01<00:00, 183.95it/s, Materializing param=model.layers.25.self_attn.k_norm.weight]Loading weights:  71%|███████   | 283/398 [00:01<00:00, 183.95it/s, Materializing param=model.layers.25.self_attn.k_proj.weight]Loading weights:  71%|███████   | 283/398 [00:01<00:00, 183.95it/s, Materializing param=model.layers.25.self_attn.k_proj.weight]Loading weights:  71%|███████▏  | 284/398 [00:01<00:00, 183.95it/s, Materializing param=model.layers.25.self_attn.o_proj.weight]Loading weights:  71%|███████▏  | 284/398 [00:01<00:00, 183.95it/s, Materializing param=model.layers.25.self_attn.o_proj.weight]Loading weights:  72%|███████▏  | 285/398 [00:01<00:00, 183.95it/s, Materializing param=model.layers.25.self_attn.q_norm.weight]Loading weights:  72%|███████▏  | 285/398 [00:01<00:00, 183.95it/s, Materializing param=model.layers.25.self_attn.q_norm.weight]Loading weights:  72%|███████▏  | 286/398 [00:01<00:00, 183.95it/s, Materializing param=model.layers.25.self_attn.q_proj.weight]Loading weights:  72%|███████▏  | 286/398 [00:01<00:00, 183.95it/s, Materializing param=model.layers.25.self_attn.q_proj.weight]Loading weights:  72%|███████▏  | 287/398 [00:01<00:00, 183.95it/s, Materializing param=model.layers.25.self_attn.v_proj.weight]Loading weights:  72%|███████▏  | 287/398 [00:01<00:00, 183.95it/s, Materializing param=model.layers.25.self_attn.v_proj.weight]Loading weights:  72%|███████▏  | 288/398 [00:01<00:00, 183.95it/s, Materializing param=model.layers.26.input_layernorm.weight] Loading weights:  72%|███████▏  | 288/398 [00:01<00:00, 183.95it/s, Materializing param=model.layers.26.input_layernorm.weight]Loading weights:  73%|███████▎  | 289/398 [00:01<00:00, 183.95it/s, Materializing param=model.layers.26.mlp.down_proj.weight]  Loading weights:  73%|███████▎  | 289/398 [00:01<00:00, 183.95it/s, Materializing param=model.layers.26.mlp.down_proj.weight]Loading weights:  73%|███████▎  | 290/398 [00:01<00:00, 183.95it/s, Materializing param=model.layers.26.mlp.gate_proj.weight]Loading weights:  73%|███████▎  | 290/398 [00:01<00:00, 183.95it/s, Materializing param=model.layers.26.mlp.gate_proj.weight]Loading weights:  73%|███████▎  | 291/398 [00:01<00:00, 184.28it/s, Materializing param=model.layers.26.mlp.gate_proj.weight]Loading weights:  73%|███████▎  | 291/398 [00:01<00:00, 184.28it/s, Materializing param=model.layers.26.mlp.up_proj.weight]  Loading weights:  73%|███████▎  | 291/398 [00:01<00:00, 184.28it/s, Materializing param=model.layers.26.mlp.up_proj.weight]Loading weights:  73%|███████▎  | 292/398 [00:01<00:00, 184.28it/s, Materializing param=model.layers.26.post_attention_layernorm.weight]Loading weights:  73%|███████▎  | 292/398 [00:01<00:00, 184.28it/s, Materializing param=model.layers.26.post_attention_layernorm.weight]Loading weights:  74%|███████▎  | 293/398 [00:01<00:00, 184.28it/s, Materializing param=model.layers.26.self_attn.k_norm.weight]        Loading weights:  74%|███████▎  | 293/398 [00:01<00:00, 184.28it/s, Materializing param=model.layers.26.self_attn.k_norm.weight]Loading weights:  74%|███████▍  | 294/398 [00:01<00:00, 184.28it/s, Materializing param=model.layers.26.self_attn.k_proj.weight]Loading weights:  74%|███████▍  | 294/398 [00:01<00:00, 184.28it/s, Materializing param=model.layers.26.self_attn.k_proj.weight]Loading weights:  74%|███████▍  | 295/398 [00:01<00:00, 184.28it/s, Materializing param=model.layers.26.self_attn.o_proj.weight]Loading weights:  74%|███████▍  | 295/398 [00:01<00:00, 184.28it/s, Materializing param=model.layers.26.self_attn.o_proj.weight]Loading weights:  74%|███████▍  | 296/398 [00:01<00:00, 184.28it/s, Materializing param=model.layers.26.self_attn.q_norm.weight]Loading weights:  74%|███████▍  | 296/398 [00:01<00:00, 184.28it/s, Materializing param=model.layers.26.self_attn.q_norm.weight]Loading weights:  75%|███████▍  | 297/398 [00:01<00:00, 184.28it/s, Materializing param=model.layers.26.self_attn.q_proj.weight]Loading weights:  75%|███████▍  | 297/398 [00:01<00:00, 184.28it/s, Materializing param=model.layers.26.self_attn.q_proj.weight]Loading weights:  75%|███████▍  | 298/398 [00:01<00:00, 184.28it/s, Materializing param=model.layers.26.self_attn.v_proj.weight]Loading weights:  75%|███████▍  | 298/398 [00:01<00:00, 184.28it/s, Materializing param=model.layers.26.self_attn.v_proj.weight]Loading weights:  75%|███████▌  | 299/398 [00:01<00:00, 184.28it/s, Materializing param=model.layers.27.input_layernorm.weight] Loading weights:  75%|███████▌  | 299/398 [00:01<00:00, 184.28it/s, Materializing param=model.layers.27.input_layernorm.weight]Loading weights:  75%|███████▌  | 300/398 [00:01<00:00, 184.28it/s, Materializing param=model.layers.27.mlp.down_proj.weight]  Loading weights:  75%|███████▌  | 300/398 [00:01<00:00, 184.28it/s, Materializing param=model.layers.27.mlp.down_proj.weight]Loading weights:  76%|███████▌  | 301/398 [00:01<00:00, 184.28it/s, Materializing param=model.layers.27.mlp.gate_proj.weight]Loading weights:  76%|███████▌  | 301/398 [00:01<00:00, 184.28it/s, Materializing param=model.layers.27.mlp.gate_proj.weight]Loading weights:  76%|███████▌  | 302/398 [00:01<00:00, 184.28it/s, Materializing param=model.layers.27.mlp.up_proj.weight]  Loading weights:  76%|███████▌  | 302/398 [00:01<00:00, 184.28it/s, Materializing param=model.layers.27.mlp.up_proj.weight]Loading weights:  76%|███████▌  | 303/398 [00:01<00:00, 184.28it/s, Materializing param=model.layers.27.post_attention_layernorm.weight]Loading weights:  76%|███████▌  | 303/398 [00:01<00:00, 184.28it/s, Materializing param=model.layers.27.post_attention_layernorm.weight]Loading weights:  76%|███████▋  | 304/398 [00:01<00:00, 184.28it/s, Materializing param=model.layers.27.self_attn.k_norm.weight]        Loading weights:  76%|███████▋  | 304/398 [00:01<00:00, 184.28it/s, Materializing param=model.layers.27.self_attn.k_norm.weight]Loading weights:  77%|███████▋  | 305/398 [00:01<00:00, 184.28it/s, Materializing param=model.layers.27.self_attn.k_proj.weight]Loading weights:  77%|███████▋  | 305/398 [00:01<00:00, 184.28it/s, Materializing param=model.layers.27.self_attn.k_proj.weight]Loading weights:  77%|███████▋  | 306/398 [00:01<00:00, 184.28it/s, Materializing param=model.layers.27.self_attn.o_proj.weight]Loading weights:  77%|███████▋  | 306/398 [00:01<00:00, 184.28it/s, Materializing param=model.layers.27.self_attn.o_proj.weight]Loading weights:  77%|███████▋  | 307/398 [00:01<00:00, 184.28it/s, Materializing param=model.layers.27.self_attn.q_norm.weight]Loading weights:  77%|███████▋  | 307/398 [00:01<00:00, 184.28it/s, Materializing param=model.layers.27.self_attn.q_norm.weight]Loading weights:  77%|███████▋  | 308/398 [00:01<00:00, 184.28it/s, Materializing param=model.layers.27.self_attn.q_proj.weight]Loading weights:  77%|███████▋  | 308/398 [00:01<00:00, 184.28it/s, Materializing param=model.layers.27.self_attn.q_proj.weight]Loading weights:  78%|███████▊  | 309/398 [00:01<00:00, 184.28it/s, Materializing param=model.layers.27.self_attn.v_proj.weight]Loading weights:  78%|███████▊  | 309/398 [00:01<00:00, 184.28it/s, Materializing param=model.layers.27.self_attn.v_proj.weight]Loading weights:  78%|███████▊  | 310/398 [00:01<00:00, 184.28it/s, Materializing param=model.layers.28.input_layernorm.weight] Loading weights:  78%|███████▊  | 310/398 [00:01<00:00, 184.28it/s, Materializing param=model.layers.28.input_layernorm.weight]Loading weights:  78%|███████▊  | 311/398 [00:01<00:00, 184.28it/s, Materializing param=model.layers.28.mlp.down_proj.weight]  Loading weights:  78%|███████▊  | 311/398 [00:01<00:00, 184.28it/s, Materializing param=model.layers.28.mlp.down_proj.weight]Loading weights:  78%|███████▊  | 312/398 [00:01<00:00, 189.31it/s, Materializing param=model.layers.28.mlp.down_proj.weight]Loading weights:  78%|███████▊  | 312/398 [00:01<00:00, 189.31it/s, Materializing param=model.layers.28.mlp.gate_proj.weight]Loading weights:  78%|███████▊  | 312/398 [00:01<00:00, 189.31it/s, Materializing param=model.layers.28.mlp.gate_proj.weight]Loading weights:  79%|███████▊  | 313/398 [00:01<00:00, 189.31it/s, Materializing param=model.layers.28.mlp.up_proj.weight]  Loading weights:  79%|███████▊  | 313/398 [00:01<00:00, 189.31it/s, Materializing param=model.layers.28.mlp.up_proj.weight]Loading weights:  79%|███████▉  | 314/398 [00:01<00:00, 189.31it/s, Materializing param=model.layers.28.post_attention_layernorm.weight]Loading weights:  79%|███████▉  | 314/398 [00:01<00:00, 189.31it/s, Materializing param=model.layers.28.post_attention_layernorm.weight]Loading weights:  79%|███████▉  | 315/398 [00:01<00:00, 189.31it/s, Materializing param=model.layers.28.self_attn.k_norm.weight]        Loading weights:  79%|███████▉  | 315/398 [00:01<00:00, 189.31it/s, Materializing param=model.layers.28.self_attn.k_norm.weight]Loading weights:  79%|███████▉  | 316/398 [00:01<00:00, 189.31it/s, Materializing param=model.layers.28.self_attn.k_proj.weight]Loading weights:  79%|███████▉  | 316/398 [00:01<00:00, 189.31it/s, Materializing param=model.layers.28.self_attn.k_proj.weight]Loading weights:  80%|███████▉  | 317/398 [00:01<00:00, 189.31it/s, Materializing param=model.layers.28.self_attn.o_proj.weight]Loading weights:  80%|███████▉  | 317/398 [00:01<00:00, 189.31it/s, Materializing param=model.layers.28.self_attn.o_proj.weight]Loading weights:  80%|███████▉  | 318/398 [00:01<00:00, 189.31it/s, Materializing param=model.layers.28.self_attn.q_norm.weight]Loading weights:  80%|███████▉  | 318/398 [00:01<00:00, 189.31it/s, Materializing param=model.layers.28.self_attn.q_norm.weight]Loading weights:  80%|████████  | 319/398 [00:01<00:00, 189.31it/s, Materializing param=model.layers.28.self_attn.q_proj.weight]Loading weights:  80%|████████  | 319/398 [00:01<00:00, 189.31it/s, Materializing param=model.layers.28.self_attn.q_proj.weight]Loading weights:  80%|████████  | 320/398 [00:01<00:00, 189.31it/s, Materializing param=model.layers.28.self_attn.v_proj.weight]Loading weights:  80%|████████  | 320/398 [00:01<00:00, 189.31it/s, Materializing param=model.layers.28.self_attn.v_proj.weight]Loading weights:  81%|████████  | 321/398 [00:01<00:00, 189.31it/s, Materializing param=model.layers.29.input_layernorm.weight] Loading weights:  81%|████████  | 321/398 [00:01<00:00, 189.31it/s, Materializing param=model.layers.29.input_layernorm.weight]Loading weights:  81%|████████  | 322/398 [00:01<00:00, 189.31it/s, Materializing param=model.layers.29.mlp.down_proj.weight]  Loading weights:  81%|████████  | 322/398 [00:01<00:00, 189.31it/s, Materializing param=model.layers.29.mlp.down_proj.weight]Loading weights:  81%|████████  | 323/398 [00:01<00:00, 189.31it/s, Materializing param=model.layers.29.mlp.gate_proj.weight]Loading weights:  81%|████████  | 323/398 [00:01<00:00, 189.31it/s, Materializing param=model.layers.29.mlp.gate_proj.weight]Loading weights:  81%|████████▏ | 324/398 [00:01<00:00, 189.31it/s, Materializing param=model.layers.29.mlp.up_proj.weight]  Loading weights:  81%|████████▏ | 324/398 [00:01<00:00, 189.31it/s, Materializing param=model.layers.29.mlp.up_proj.weight]Loading weights:  82%|████████▏ | 325/398 [00:01<00:00, 189.31it/s, Materializing param=model.layers.29.post_attention_layernorm.weight]Loading weights:  82%|████████▏ | 325/398 [00:01<00:00, 189.31it/s, Materializing param=model.layers.29.post_attention_layernorm.weight]Loading weights:  82%|████████▏ | 326/398 [00:01<00:00, 189.31it/s, Materializing param=model.layers.29.self_attn.k_norm.weight]        Loading weights:  82%|████████▏ | 326/398 [00:01<00:00, 189.31it/s, Materializing param=model.layers.29.self_attn.k_norm.weight]Loading weights:  82%|████████▏ | 327/398 [00:01<00:00, 189.31it/s, Materializing param=model.layers.29.self_attn.k_proj.weight]Loading weights:  82%|████████▏ | 327/398 [00:01<00:00, 189.31it/s, Materializing param=model.layers.29.self_attn.k_proj.weight]Loading weights:  82%|████████▏ | 328/398 [00:01<00:00, 189.31it/s, Materializing param=model.layers.29.self_attn.o_proj.weight]Loading weights:  82%|████████▏ | 328/398 [00:01<00:00, 189.31it/s, Materializing param=model.layers.29.self_attn.o_proj.weight]Loading weights:  83%|████████▎ | 329/398 [00:01<00:00, 189.31it/s, Materializing param=model.layers.29.self_attn.q_norm.weight]Loading weights:  83%|████████▎ | 329/398 [00:01<00:00, 189.31it/s, Materializing param=model.layers.29.self_attn.q_norm.weight]Loading weights:  83%|████████▎ | 330/398 [00:01<00:00, 189.31it/s, Materializing param=model.layers.29.self_attn.q_proj.weight]Loading weights:  83%|████████▎ | 330/398 [00:01<00:00, 189.31it/s, Materializing param=model.layers.29.self_attn.q_proj.weight]Loading weights:  83%|████████▎ | 331/398 [00:01<00:00, 185.00it/s, Materializing param=model.layers.29.self_attn.q_proj.weight]Loading weights:  83%|████████▎ | 331/398 [00:01<00:00, 185.00it/s, Materializing param=model.layers.29.self_attn.v_proj.weight]Loading weights:  83%|████████▎ | 331/398 [00:01<00:00, 185.00it/s, Materializing param=model.layers.29.self_attn.v_proj.weight]Loading weights:  83%|████████▎ | 332/398 [00:01<00:00, 185.00it/s, Materializing param=model.layers.30.input_layernorm.weight] Loading weights:  83%|████████▎ | 332/398 [00:01<00:00, 185.00it/s, Materializing param=model.layers.30.input_layernorm.weight]Loading weights:  84%|████████▎ | 333/398 [00:01<00:00, 185.00it/s, Materializing param=model.layers.30.mlp.down_proj.weight]  Loading weights:  84%|████████▎ | 333/398 [00:01<00:00, 185.00it/s, Materializing param=model.layers.30.mlp.down_proj.weight]Loading weights:  84%|████████▍ | 334/398 [00:01<00:00, 185.00it/s, Materializing param=model.layers.30.mlp.gate_proj.weight]Loading weights:  84%|████████▍ | 334/398 [00:01<00:00, 185.00it/s, Materializing param=model.layers.30.mlp.gate_proj.weight]Loading weights:  84%|████████▍ | 335/398 [00:01<00:00, 185.00it/s, Materializing param=model.layers.30.mlp.up_proj.weight]  Loading weights:  84%|████████▍ | 335/398 [00:01<00:00, 185.00it/s, Materializing param=model.layers.30.mlp.up_proj.weight]Loading weights:  84%|████████▍ | 336/398 [00:02<00:00, 185.00it/s, Materializing param=model.layers.30.post_attention_layernorm.weight]Loading weights:  84%|████████▍ | 336/398 [00:02<00:00, 185.00it/s, Materializing param=model.layers.30.post_attention_layernorm.weight]Loading weights:  85%|████████▍ | 337/398 [00:02<00:00, 185.00it/s, Materializing param=model.layers.30.self_attn.k_norm.weight]        Loading weights:  85%|████████▍ | 337/398 [00:02<00:00, 185.00it/s, Materializing param=model.layers.30.self_attn.k_norm.weight]Loading weights:  85%|████████▍ | 338/398 [00:02<00:00, 185.00it/s, Materializing param=model.layers.30.self_attn.k_proj.weight]Loading weights:  85%|████████▍ | 338/398 [00:02<00:00, 185.00it/s, Materializing param=model.layers.30.self_attn.k_proj.weight]Loading weights:  85%|████████▌ | 339/398 [00:02<00:00, 185.00it/s, Materializing param=model.layers.30.self_attn.o_proj.weight]Loading weights:  85%|████████▌ | 339/398 [00:02<00:00, 185.00it/s, Materializing param=model.layers.30.self_attn.o_proj.weight]Loading weights:  85%|████████▌ | 340/398 [00:02<00:00, 185.00it/s, Materializing param=model.layers.30.self_attn.q_norm.weight]Loading weights:  85%|████████▌ | 340/398 [00:02<00:00, 185.00it/s, Materializing param=model.layers.30.self_attn.q_norm.weight]Loading weights:  86%|████████▌ | 341/398 [00:02<00:00, 185.00it/s, Materializing param=model.layers.30.self_attn.q_proj.weight]Loading weights:  86%|████████▌ | 341/398 [00:02<00:00, 185.00it/s, Materializing param=model.layers.30.self_attn.q_proj.weight]Loading weights:  86%|████████▌ | 342/398 [00:02<00:00, 185.00it/s, Materializing param=model.layers.30.self_attn.v_proj.weight]Loading weights:  86%|████████▌ | 342/398 [00:02<00:00, 185.00it/s, Materializing param=model.layers.30.self_attn.v_proj.weight]Loading weights:  86%|████████▌ | 343/398 [00:02<00:00, 185.00it/s, Materializing param=model.layers.31.input_layernorm.weight] Loading weights:  86%|████████▌ | 343/398 [00:02<00:00, 185.00it/s, Materializing param=model.layers.31.input_layernorm.weight]Loading weights:  86%|████████▋ | 344/398 [00:02<00:00, 185.00it/s, Materializing param=model.layers.31.mlp.down_proj.weight]  Loading weights:  86%|████████▋ | 344/398 [00:02<00:00, 185.00it/s, Materializing param=model.layers.31.mlp.down_proj.weight]Loading weights:  87%|████████▋ | 345/398 [00:02<00:00, 185.00it/s, Materializing param=model.layers.31.mlp.gate_proj.weight]Loading weights:  87%|████████▋ | 345/398 [00:02<00:00, 185.00it/s, Materializing param=model.layers.31.mlp.gate_proj.weight]Loading weights:  87%|████████▋ | 346/398 [00:02<00:00, 185.00it/s, Materializing param=model.layers.31.mlp.up_proj.weight]  Loading weights:  87%|████████▋ | 346/398 [00:02<00:00, 185.00it/s, Materializing param=model.layers.31.mlp.up_proj.weight]Loading weights:  87%|████████▋ | 347/398 [00:02<00:00, 185.00it/s, Materializing param=model.layers.31.post_attention_layernorm.weight]Loading weights:  87%|████████▋ | 347/398 [00:02<00:00, 185.00it/s, Materializing param=model.layers.31.post_attention_layernorm.weight]Loading weights:  87%|████████▋ | 348/398 [00:02<00:00, 185.00it/s, Materializing param=model.layers.31.self_attn.k_norm.weight]        Loading weights:  87%|████████▋ | 348/398 [00:02<00:00, 185.00it/s, Materializing param=model.layers.31.self_attn.k_norm.weight]Loading weights:  88%|████████▊ | 349/398 [00:02<00:00, 185.00it/s, Materializing param=model.layers.31.self_attn.k_proj.weight]Loading weights:  88%|████████▊ | 349/398 [00:02<00:00, 185.00it/s, Materializing param=model.layers.31.self_attn.k_proj.weight]Loading weights:  88%|████████▊ | 350/398 [00:02<00:00, 182.12it/s, Materializing param=model.layers.31.self_attn.k_proj.weight]Loading weights:  88%|████████▊ | 350/398 [00:02<00:00, 182.12it/s, Materializing param=model.layers.31.self_attn.o_proj.weight]Loading weights:  88%|████████▊ | 350/398 [00:02<00:00, 182.12it/s, Materializing param=model.layers.31.self_attn.o_proj.weight]Loading weights:  88%|████████▊ | 351/398 [00:02<00:00, 182.12it/s, Materializing param=model.layers.31.self_attn.q_norm.weight]Loading weights:  88%|████████▊ | 351/398 [00:02<00:00, 182.12it/s, Materializing param=model.layers.31.self_attn.q_norm.weight]Loading weights:  88%|████████▊ | 352/398 [00:02<00:00, 182.12it/s, Materializing param=model.layers.31.self_attn.q_proj.weight]Loading weights:  88%|████████▊ | 352/398 [00:02<00:00, 182.12it/s, Materializing param=model.layers.31.self_attn.q_proj.weight]Loading weights:  89%|████████▊ | 353/398 [00:02<00:00, 182.12it/s, Materializing param=model.layers.31.self_attn.v_proj.weight]Loading weights:  89%|████████▊ | 353/398 [00:02<00:00, 182.12it/s, Materializing param=model.layers.31.self_attn.v_proj.weight]Loading weights:  89%|████████▉ | 354/398 [00:02<00:00, 182.12it/s, Materializing param=model.layers.32.input_layernorm.weight] Loading weights:  89%|████████▉ | 354/398 [00:02<00:00, 182.12it/s, Materializing param=model.layers.32.input_layernorm.weight]Loading weights:  89%|████████▉ | 355/398 [00:02<00:00, 182.12it/s, Materializing param=model.layers.32.mlp.down_proj.weight]  Loading weights:  89%|████████▉ | 355/398 [00:02<00:00, 182.12it/s, Materializing param=model.layers.32.mlp.down_proj.weight]Loading weights:  89%|████████▉ | 356/398 [00:02<00:00, 182.12it/s, Materializing param=model.layers.32.mlp.gate_proj.weight]Loading weights:  89%|████████▉ | 356/398 [00:02<00:00, 182.12it/s, Materializing param=model.layers.32.mlp.gate_proj.weight]Loading weights:  90%|████████▉ | 357/398 [00:02<00:00, 182.12it/s, Materializing param=model.layers.32.mlp.up_proj.weight]  Loading weights:  90%|████████▉ | 357/398 [00:02<00:00, 182.12it/s, Materializing param=model.layers.32.mlp.up_proj.weight]Loading weights:  90%|████████▉ | 358/398 [00:02<00:00, 182.12it/s, Materializing param=model.layers.32.post_attention_layernorm.weight]Loading weights:  90%|████████▉ | 358/398 [00:02<00:00, 182.12it/s, Materializing param=model.layers.32.post_attention_layernorm.weight]Loading weights:  90%|█████████ | 359/398 [00:02<00:00, 182.12it/s, Materializing param=model.layers.32.self_attn.k_norm.weight]        Loading weights:  90%|█████████ | 359/398 [00:02<00:00, 182.12it/s, Materializing param=model.layers.32.self_attn.k_norm.weight]Loading weights:  90%|█████████ | 360/398 [00:02<00:00, 182.12it/s, Materializing param=model.layers.32.self_attn.k_proj.weight]Loading weights:  90%|█████████ | 360/398 [00:02<00:00, 182.12it/s, Materializing param=model.layers.32.self_attn.k_proj.weight]Loading weights:  91%|█████████ | 361/398 [00:02<00:00, 182.12it/s, Materializing param=model.layers.32.self_attn.o_proj.weight]Loading weights:  91%|█████████ | 361/398 [00:02<00:00, 182.12it/s, Materializing param=model.layers.32.self_attn.o_proj.weight]Loading weights:  91%|█████████ | 362/398 [00:02<00:00, 182.12it/s, Materializing param=model.layers.32.self_attn.q_norm.weight]Loading weights:  91%|█████████ | 362/398 [00:02<00:00, 182.12it/s, Materializing param=model.layers.32.self_attn.q_norm.weight]Loading weights:  91%|█████████ | 363/398 [00:02<00:00, 182.12it/s, Materializing param=model.layers.32.self_attn.q_proj.weight]Loading weights:  91%|█████████ | 363/398 [00:02<00:00, 182.12it/s, Materializing param=model.layers.32.self_attn.q_proj.weight]Loading weights:  91%|█████████▏| 364/398 [00:02<00:00, 182.12it/s, Materializing param=model.layers.32.self_attn.v_proj.weight]Loading weights:  91%|█████████▏| 364/398 [00:02<00:00, 182.12it/s, Materializing param=model.layers.32.self_attn.v_proj.weight]Loading weights:  92%|█████████▏| 365/398 [00:02<00:00, 182.12it/s, Materializing param=model.layers.33.input_layernorm.weight] Loading weights:  92%|█████████▏| 365/398 [00:02<00:00, 182.12it/s, Materializing param=model.layers.33.input_layernorm.weight]Loading weights:  92%|█████████▏| 366/398 [00:02<00:00, 182.12it/s, Materializing param=model.layers.33.mlp.down_proj.weight]  Loading weights:  92%|█████████▏| 366/398 [00:02<00:00, 182.12it/s, Materializing param=model.layers.33.mlp.down_proj.weight]Loading weights:  92%|█████████▏| 367/398 [00:02<00:00, 182.12it/s, Materializing param=model.layers.33.mlp.gate_proj.weight]Loading weights:  92%|█████████▏| 367/398 [00:02<00:00, 182.12it/s, Materializing param=model.layers.33.mlp.gate_proj.weight]Loading weights:  92%|█████████▏| 368/398 [00:02<00:00, 182.12it/s, Materializing param=model.layers.33.mlp.up_proj.weight]  Loading weights:  92%|█████████▏| 368/398 [00:02<00:00, 182.12it/s, Materializing param=model.layers.33.mlp.up_proj.weight]Loading weights:  93%|█████████▎| 369/398 [00:02<00:00, 175.72it/s, Materializing param=model.layers.33.mlp.up_proj.weight]Loading weights:  93%|█████████▎| 369/398 [00:02<00:00, 175.72it/s, Materializing param=model.layers.33.post_attention_layernorm.weight]Loading weights:  93%|█████████▎| 369/398 [00:02<00:00, 175.72it/s, Materializing param=model.layers.33.post_attention_layernorm.weight]Loading weights:  93%|█████████▎| 370/398 [00:02<00:00, 175.72it/s, Materializing param=model.layers.33.self_attn.k_norm.weight]        Loading weights:  93%|█████████▎| 370/398 [00:02<00:00, 175.72it/s, Materializing param=model.layers.33.self_attn.k_norm.weight]Loading weights:  93%|█████████▎| 371/398 [00:02<00:00, 175.72it/s, Materializing param=model.layers.33.self_attn.k_proj.weight]Loading weights:  93%|█████████▎| 371/398 [00:02<00:00, 175.72it/s, Materializing param=model.layers.33.self_attn.k_proj.weight]Loading weights:  93%|█████████▎| 372/398 [00:02<00:00, 175.72it/s, Materializing param=model.layers.33.self_attn.o_proj.weight]Loading weights:  93%|█████████▎| 372/398 [00:02<00:00, 175.72it/s, Materializing param=model.layers.33.self_attn.o_proj.weight]Loading weights:  94%|█████████▎| 373/398 [00:02<00:00, 175.72it/s, Materializing param=model.layers.33.self_attn.q_norm.weight]Loading weights:  94%|█████████▎| 373/398 [00:02<00:00, 175.72it/s, Materializing param=model.layers.33.self_attn.q_norm.weight]Loading weights:  94%|█████████▍| 374/398 [00:02<00:00, 175.72it/s, Materializing param=model.layers.33.self_attn.q_proj.weight]Loading weights:  94%|█████████▍| 374/398 [00:02<00:00, 175.72it/s, Materializing param=model.layers.33.self_attn.q_proj.weight]Loading weights:  94%|█████████▍| 375/398 [00:02<00:00, 175.72it/s, Materializing param=model.layers.33.self_attn.v_proj.weight]Loading weights:  94%|█████████▍| 375/398 [00:02<00:00, 175.72it/s, Materializing param=model.layers.33.self_attn.v_proj.weight]Loading weights:  94%|█████████▍| 376/398 [00:02<00:00, 175.72it/s, Materializing param=model.layers.34.input_layernorm.weight] Loading weights:  94%|█████████▍| 376/398 [00:02<00:00, 175.72it/s, Materializing param=model.layers.34.input_layernorm.weight]Loading weights:  95%|█████████▍| 377/398 [00:02<00:00, 175.72it/s, Materializing param=model.layers.34.mlp.down_proj.weight]  Loading weights:  95%|█████████▍| 377/398 [00:02<00:00, 175.72it/s, Materializing param=model.layers.34.mlp.down_proj.weight]Loading weights:  95%|█████████▍| 378/398 [00:02<00:00, 175.72it/s, Materializing param=model.layers.34.mlp.gate_proj.weight]Loading weights:  95%|█████████▍| 378/398 [00:02<00:00, 175.72it/s, Materializing param=model.layers.34.mlp.gate_proj.weight]Loading weights:  95%|█████████▌| 379/398 [00:02<00:00, 175.72it/s, Materializing param=model.layers.34.mlp.up_proj.weight]  Loading weights:  95%|█████████▌| 379/398 [00:02<00:00, 175.72it/s, Materializing param=model.layers.34.mlp.up_proj.weight]Loading weights:  95%|█████████▌| 380/398 [00:02<00:00, 175.72it/s, Materializing param=model.layers.34.post_attention_layernorm.weight]Loading weights:  95%|█████████▌| 380/398 [00:02<00:00, 175.72it/s, Materializing param=model.layers.34.post_attention_layernorm.weight]Loading weights:  96%|█████████▌| 381/398 [00:02<00:00, 175.72it/s, Materializing param=model.layers.34.self_attn.k_norm.weight]        Loading weights:  96%|█████████▌| 381/398 [00:02<00:00, 175.72it/s, Materializing param=model.layers.34.self_attn.k_norm.weight]Loading weights:  96%|█████████▌| 382/398 [00:02<00:00, 175.72it/s, Materializing param=model.layers.34.self_attn.k_proj.weight]Loading weights:  96%|█████████▌| 382/398 [00:02<00:00, 175.72it/s, Materializing param=model.layers.34.self_attn.k_proj.weight]Loading weights:  96%|█████████▌| 383/398 [00:02<00:00, 175.72it/s, Materializing param=model.layers.34.self_attn.o_proj.weight]Loading weights:  96%|█████████▌| 383/398 [00:02<00:00, 175.72it/s, Materializing param=model.layers.34.self_attn.o_proj.weight]Loading weights:  96%|█████████▋| 384/398 [00:02<00:00, 175.72it/s, Materializing param=model.layers.34.self_attn.q_norm.weight]Loading weights:  96%|█████████▋| 384/398 [00:02<00:00, 175.72it/s, Materializing param=model.layers.34.self_attn.q_norm.weight]Loading weights:  97%|█████████▋| 385/398 [00:02<00:00, 175.72it/s, Materializing param=model.layers.34.self_attn.q_proj.weight]Loading weights:  97%|█████████▋| 385/398 [00:02<00:00, 175.72it/s, Materializing param=model.layers.34.self_attn.q_proj.weight]Loading weights:  97%|█████████▋| 386/398 [00:02<00:00, 175.72it/s, Materializing param=model.layers.34.self_attn.v_proj.weight]Loading weights:  97%|█████████▋| 386/398 [00:02<00:00, 175.72it/s, Materializing param=model.layers.34.self_attn.v_proj.weight]Loading weights:  97%|█████████▋| 387/398 [00:02<00:00, 175.72it/s, Materializing param=model.layers.35.input_layernorm.weight] Loading weights:  97%|█████████▋| 387/398 [00:02<00:00, 175.72it/s, Materializing param=model.layers.35.input_layernorm.weight]Loading weights:  97%|█████████▋| 388/398 [00:02<00:00, 175.72it/s, Materializing param=model.layers.35.mlp.down_proj.weight]  Loading weights:  97%|█████████▋| 388/398 [00:02<00:00, 175.72it/s, Materializing param=model.layers.35.mlp.down_proj.weight]Loading weights:  98%|█████████▊| 389/398 [00:02<00:00, 175.72it/s, Materializing param=model.layers.35.mlp.gate_proj.weight]Loading weights:  98%|█████████▊| 389/398 [00:02<00:00, 175.72it/s, Materializing param=model.layers.35.mlp.gate_proj.weight]Loading weights:  98%|█████████▊| 390/398 [00:02<00:00, 181.88it/s, Materializing param=model.layers.35.mlp.gate_proj.weight]Loading weights:  98%|█████████▊| 390/398 [00:02<00:00, 181.88it/s, Materializing param=model.layers.35.mlp.up_proj.weight]  Loading weights:  98%|█████████▊| 390/398 [00:02<00:00, 181.88it/s, Materializing param=model.layers.35.mlp.up_proj.weight]Loading weights:  98%|█████████▊| 391/398 [00:02<00:00, 181.88it/s, Materializing param=model.layers.35.post_attention_layernorm.weight]Loading weights:  98%|█████████▊| 391/398 [00:02<00:00, 181.88it/s, Materializing param=model.layers.35.post_attention_layernorm.weight]Loading weights:  98%|█████████▊| 392/398 [00:02<00:00, 181.88it/s, Materializing param=model.layers.35.self_attn.k_norm.weight]        Loading weights:  98%|█████████▊| 392/398 [00:02<00:00, 181.88it/s, Materializing param=model.layers.35.self_attn.k_norm.weight]Loading weights:  99%|█████████▊| 393/398 [00:02<00:00, 181.88it/s, Materializing param=model.layers.35.self_attn.k_proj.weight]Loading weights:  99%|█████████▊| 393/398 [00:02<00:00, 181.88it/s, Materializing param=model.layers.35.self_attn.k_proj.weight]Loading weights:  99%|█████████▉| 394/398 [00:02<00:00, 181.88it/s, Materializing param=model.layers.35.self_attn.o_proj.weight]Loading weights:  99%|█████████▉| 394/398 [00:02<00:00, 181.88it/s, Materializing param=model.layers.35.self_attn.o_proj.weight]Loading weights:  99%|█████████▉| 395/398 [00:02<00:00, 181.88it/s, Materializing param=model.layers.35.self_attn.q_norm.weight]Loading weights:  99%|█████████▉| 395/398 [00:02<00:00, 181.88it/s, Materializing param=model.layers.35.self_attn.q_norm.weight]Loading weights:  99%|█████████▉| 396/398 [00:02<00:00, 181.88it/s, Materializing param=model.layers.35.self_attn.q_proj.weight]Loading weights:  99%|█████████▉| 396/398 [00:02<00:00, 181.88it/s, Materializing param=model.layers.35.self_attn.q_proj.weight]Loading weights: 100%|█████████▉| 397/398 [00:02<00:00, 181.88it/s, Materializing param=model.layers.35.self_attn.v_proj.weight]Loading weights: 100%|█████████▉| 397/398 [00:02<00:00, 181.88it/s, Materializing param=model.layers.35.self_attn.v_proj.weight]Loading weights: 100%|██████████| 398/398 [00:02<00:00, 181.88it/s, Materializing param=model.norm.weight]                      Loading weights: 100%|██████████| 398/398 [00:02<00:00, 181.88it/s, Materializing param=model.norm.weight]Loading weights: 100%|██████████| 398/398 [00:02<00:00, 170.56it/s, Materializing param=model.norm.weight]
+[2026-02-25 23:20:28,784] [INFO] [axolotl.loaders.model._configure_embedding_dtypes:356] [PID:2758243] Converting modules to torch.bfloat16
+[2026-02-25 23:20:28,792] [DEBUG] [axolotl.loaders.model.log_gpu_memory_usage:127] [PID:2758243] Memory usage after model load 8.942GB (+8.942GB allocated, +8.943GB reserved)
+[2026-02-25 23:20:28,794] [INFO] [axolotl.loaders.adapter.load_lora:81] [PID:2758243] found linear modules: ['down_proj', 'gate_proj', 'k_proj', 'o_proj', 'q_proj', 'up_proj', 'v_proj']
+trainable params: 66,060,288 || all params: 4,088,528,384 || trainable%: 1.6157
+[2026-02-25 23:20:30,645] [DEBUG] [axolotl.loaders.model.log_gpu_memory_usage:127] [PID:2758243] after adapters 7.739GB (+7.739GB allocated, +9.068GB reserved)
+[2026-02-25 23:20:38,655] [INFO] [axolotl.train.save_initial_configs:402] [PID:2758243] Pre-saving adapter config to /home/jiaruil5/math_rl/mix_teachers/r3lit_rl/mix_teachers/checkpoints/math_operations/primitive_atomic_balanced_sft_50k...
+[2026-02-25 23:20:38,656] [INFO] [axolotl.train.save_initial_configs:406] [PID:2758243] Pre-saving tokenizer to /home/jiaruil5/math_rl/mix_teachers/r3lit_rl/mix_teachers/checkpoints/math_operations/primitive_atomic_balanced_sft_50k...
+[2026-02-25 23:20:38,812] [INFO] [axolotl.train.save_initial_configs:411] [PID:2758243] Pre-saving model config to /home/jiaruil5/math_rl/mix_teachers/r3lit_rl/mix_teachers/checkpoints/math_operations/primitive_atomic_balanced_sft_50k...
+[2026-02-25 23:20:38,816] [INFO] [axolotl.train.execute_training:207] [PID:2758243] Starting trainer...
+[2026-02-25 23:20:41,370] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.6699748039245605
+[2026-02-25 23:20:42,019] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.6480233669281006
+[2026-02-25 23:20:42,746] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.7265126705169678
+[2026-02-25 23:20:43,397] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.6491079330444336
+[2026-02-25 23:20:43,397] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:2758243] gather_len_batches: [4125]
+wandb: [wandb.login()] Loaded credentials for https://api.wandb.ai from WANDB_API_KEY.
+wandb: Currently logged in as: jiaruil5 (mathrl-jiarui) to https://api.wandb.ai. Use `wandb login --relogin` to force relogin
+wandb: Tracking run with wandb version 0.25.0
+wandb: Run data is saved locally in /home/jiaruil5/math_rl/.wandb/run-20260225_232043-0h9bzhir
+wandb: Run `wandb offline` to turn off syncing.
+wandb: Syncing run qwen3-4b-primitive-atomic-balanced-lora-sft-50k
+wandb: ⭐️ View project at https://wandb.ai/mathrl-jiarui/math_operations_sft
+wandb: 🚀 View run at https://wandb.ai/mathrl-jiarui/math_operations_sft/runs/0h9bzhir
+wandb: Detected [huggingface_hub.inference] in use.
+wandb: Use W&B Weave for improved LLM call tracing. Install Weave with `pip install weave` then add `import weave` to the top of your script.
+wandb: For more information, check out the docs at: https://weave-docs.wandb.ai/
+wandb: WARNING Saving files without folders. If you want to preserve subdirectories pass base_path to wandb.save, i.e. wandb.save("/mnt/folder/file.h5", base_path="/mnt")
+wandb: WARNING Symlinked 1 file into the W&B run directory; call wandb.save again to sync new files.
+[2026-02-25 23:20:46,247] [INFO] [axolotl.utils.callbacks.on_train_begin:757] [PID:2758243] The Axolotl config has been saved to the WandB run under files.
+  0%|          | 0/5155 [00:00<?, ?it/s][2026-02-25 23:20:46,253] [INFO] [axolotl.core.trainers.base.evaluate:400] [PID:2758243] Running evaluation step...
+[2026-02-25 23:20:47,443] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.5614223480224609
+[2026-02-25 23:20:47,992] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.5487122535705566
+[2026-02-25 23:20:48,563] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.569782018661499
+[2026-02-25 23:20:49,123] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.5604732036590576
+[2026-02-25 23:20:49,124] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:2758243] gather_len_batches: [17]
+
+  0%|          | 0/17 [00:00<?, ?it/s][A
+ 12%|█▏        | 2/17 [00:00<00:04,  3.61it/s][A
+ 18%|█▊        | 3/17 [00:01<00:05,  2.41it/s][A
+ 24%|██▎       | 4/17 [00:01<00:06,  2.05it/s][A
+ 29%|██▉       | 5/17 [00:02<00:06,  1.82it/s][A
+ 35%|███▌      | 6/17 [00:03<00:06,  1.76it/s][A
+ 41%|████      | 7/17 [00:03<00:05,  1.72it/s][A
+ 47%|████▋     | 8/17 [00:04<00:05,  1.69it/s][A
+ 53%|█████▎    | 9/17 [00:05<00:05,  1.48it/s][A
+ 59%|█████▉    | 10/17 [00:05<00:04,  1.53it/s][A
+ 65%|██████▍   | 11/17 [00:06<00:03,  1.56it/s][A
+ 71%|███████   | 12/17 [00:06<00:03,  1.59it/s][A
+ 76%|███████▋  | 13/17 [00:08<00:03,  1.28it/s][A
+ 82%|████████▏ | 14/17 [00:08<00:02,  1.38it/s][A
+ 88%|████████▊ | 15/17 [00:09<00:01,  1.45it/s][A
+ 94%|█████████▍| 16/17 [00:09<00:00,  1.50it/s][A
+100%|██████████| 17/17 [00:10<00:00,  1.52it/s][A                                        
+                                               [A{'eval_loss': '0.8898', 'eval_runtime': '12.64', 'eval_samples_per_second': '15.82', 'eval_steps_per_second': '7.912', 'eval_ppl': '2.435', 'memory/max_active (GiB)': '13.69', 'memory/max_allocated (GiB)': '13.69', 'memory/device_reserved (GiB)': '13.84', 'epoch': 0}
+  0%|          | 0/5155 [00:15<?, ?it/s]
+100%|██████████| 17/17 [00:10<00:00,  1.52it/s][A
+                                               [A  0%|          | 1/5155 [00:26<37:14:40, 26.01s/it]  0%|          | 2/5155 [00:34<22:48:15, 15.93s/it]  0%|          | 3/5155 [00:43<18:01:21, 12.59s/it]  0%|          | 4/5155 [00:52<15:47:12, 11.03s/it]  0%|          | 5/5155 [01:01<14:48:38, 10.35s/it]  0%|          | 6/5155 [01:09<13:59:29,  9.78s/it]  0%|          | 7/5155 [01:18<13:28:26,  9.42s/it]  0%|          | 8/5155 [01:27<13:08:46,  9.20s/it]  0%|          | 9/5155 [01:36<13:06:27,  9.17s/it]  0%|          | 10/5155 [01:45<12:54:25,  9.03s/it]                                                    {'loss': '0.8681', 'grad_norm': '2.996', 'learning_rate': '3.495e-06', 'ppl': '2.382', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '142.7', 'tokens/total': 163840, 'tokens/trainable': 51990, 'epoch': '0.009697'}
+  0%|          | 10/5155 [01:45<12:54:25,  9.03s/it]  0%|          | 11/5155 [01:53<12:46:03,  8.94s/it]  0%|          | 12/5155 [02:02<12:40:28,  8.87s/it]  0%|          | 13/5155 [02:11<12:36:51,  8.83s/it]  0%|          | 14/5155 [02:20<12:44:42,  8.92s/it]  0%|          | 15/5155 [02:29<12:40:15,  8.87s/it]  0%|          | 16/5155 [02:38<12:36:33,  8.83s/it]  0%|          | 17/5155 [02:46<12:34:07,  8.81s/it]  0%|          | 18/5155 [02:55<12:42:37,  8.91s/it]  0%|          | 19/5155 [03:04<12:38:43,  8.86s/it]  0%|          | 20/5155 [03:13<12:35:35,  8.83s/it]                                                    {'loss': '0.77', 'grad_norm': '2.124', 'learning_rate': '7.379e-06', 'ppl': '2.16', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '160.6', 'tokens/total': 327680, 'tokens/trainable': 104391, 'epoch': '0.01939'}
+  0%|          | 20/5155 [03:13<12:35:35,  8.83s/it]  0%|          | 21/5155 [03:22<12:33:31,  8.81s/it]  0%|          | 22/5155 [03:31<12:41:43,  8.90s/it]  0%|          | 23/5155 [03:40<12:37:28,  8.86s/it]  0%|          | 24/5155 [03:48<12:34:41,  8.83s/it]  0%|          | 25/5155 [03:57<12:32:22,  8.80s/it]  1%|          | 26/5155 [04:06<12:30:59,  8.79s/it]  1%|          | 27/5155 [04:15<12:39:55,  8.89s/it]  1%|          | 28/5155 [04:24<12:36:19,  8.85s/it]  1%|          | 29/5155 [04:32<12:33:43,  8.82s/it]  1%|          | 30/5155 [04:41<12:31:51,  8.80s/it]                                                    {'loss': '0.5319', 'grad_norm': '0.9706', 'learning_rate': '1.126e-05', 'ppl': '1.702', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '164.8', 'tokens/total': 491520, 'tokens/trainable': 156787, 'epoch': '0.02909'}
+  1%|          | 30/5155 [04:41<12:31:51,  8.80s/it]  1%|          | 31/5155 [04:50<12:40:02,  8.90s/it]  1%|          | 32/5155 [04:59<12:36:11,  8.86s/it]  1%|          | 33/5155 [05:08<12:33:23,  8.83s/it]  1%|          | 34/5155 [05:17<12:31:24,  8.80s/it]  1%|          | 35/5155 [05:25<12:29:54,  8.79s/it]  1%|          | 36/5155 [05:34<12:38:56,  8.90s/it]  1%|          | 37/5155 [05:43<12:35:08,  8.85s/it]  1%|          | 38/5155 [05:52<12:32:22,  8.82s/it]  1%|          | 39/5155 [06:01<12:30:40,  8.80s/it]  1%|          | 40/5155 [06:10<12:38:52,  8.90s/it]                                                    {'loss': '0.3023', 'grad_norm': '0.769', 'learning_rate': '1.515e-05', 'ppl': '1.353', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '148.4', 'tokens/total': 655360, 'tokens/trainable': 208924, 'epoch': '0.03879'}
+  1%|          | 40/5155 [06:10<12:38:52,  8.90s/it]  1%|          | 41/5155 [06:19<12:34:57,  8.86s/it]  1%|          | 42/5155 [06:27<12:31:52,  8.82s/it]  1%|          | 43/5155 [06:36<12:29:50,  8.80s/it]  1%|          | 44/5155 [06:45<12:28:15,  8.78s/it]  1%|          | 45/5155 [06:54<12:36:57,  8.89s/it]  1%|          | 46/5155 [07:03<12:33:34,  8.85s/it]  1%|          | 47/5155 [07:12<12:30:54,  8.82s/it]  1%|          | 48/5155 [07:20<12:28:51,  8.80s/it]  1%|          | 49/5155 [07:29<12:37:37,  8.90s/it]  1%|          | 50/5155 [07:38<12:33:50,  8.86s/it]                                                    {'loss': '0.1519', 'grad_norm': '0.4585', 'learning_rate': '1.903e-05', 'ppl': '1.164', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '146.1', 'tokens/total': 819200, 'tokens/trainable': 261170, 'epoch': '0.04848'}
+  1%|          | 50/5155 [07:38<12:33:50,  8.86s/it]  1%|          | 51/5155 [07:47<12:31:16,  8.83s/it]  1%|          | 52/5155 [07:56<12:29:17,  8.81s/it]  1%|          | 53/5155 [08:04<12:27:59,  8.80s/it]  1%|          | 54/5155 [08:14<12:36:32,  8.90s/it]  1%|          | 55/5155 [08:22<12:32:49,  8.86s/it]  1%|          | 56/5155 [08:31<12:30:02,  8.83s/it]  1%|          | 57/5155 [08:40<12:27:51,  8.80s/it]  1%|          | 58/5155 [08:49<12:35:23,  8.89s/it]  1%|          | 59/5155 [08:58<12:31:47,  8.85s/it]  1%|          | 60/5155 [09:06<12:29:23,  8.83s/it]                                                    {'loss': '0.06226', 'grad_norm': '0.4138', 'learning_rate': '2.291e-05', 'ppl': '1.064', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '141.9', 'tokens/total': 983040, 'tokens/trainable': 313808, 'epoch': '0.05818'}
+  1%|          | 60/5155 [09:06<12:29:23,  8.83s/it]  1%|          | 61/5155 [09:15<12:27:28,  8.80s/it]  1%|          | 62/5155 [09:24<12:35:54,  8.91s/it]  1%|          | 63/5155 [09:33<12:32:02,  8.86s/it]  1%|          | 64/5155 [09:42<12:29:03,  8.83s/it]  1%|▏         | 65/5155 [09:51<12:27:10,  8.81s/it]  1%|▏         | 66/5155 [09:59<12:25:58,  8.80s/it]  1%|▏         | 67/5155 [10:09<12:34:55,  8.90s/it]  1%|▏         | 68/5155 [10:17<12:30:59,  8.86s/it]  1%|▏         | 69/5155 [10:26<12:28:00,  8.82s/it]  1%|▏         | 70/5155 [10:35<12:25:58,  8.80s/it]                                                    {'loss': '0.0187', 'grad_norm': '0.4866', 'learning_rate': '2.68e-05', 'ppl': '1.019', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '146.2', 'tokens/total': 1146880, 'tokens/trainable': 366068, 'epoch': '0.06788'}
+  1%|▏         | 70/5155 [10:35<12:25:58,  8.80s/it]  1%|▏         | 71/5155 [10:44<12:24:49,  8.79s/it]  1%|▏         | 72/5155 [10:53<12:32:48,  8.89s/it]  1%|▏         | 73/5155 [11:01<12:29:23,  8.85s/it]  1%|▏         | 74/5155 [11:10<12:26:55,  8.82s/it]  1%|▏         | 75/5155 [11:19<12:25:03,  8.80s/it]  1%|▏         | 76/5155 [11:28<12:33:39,  8.90s/it]  1%|▏         | 77/5155 [11:37<12:29:52,  8.86s/it]  2%|▏         | 78/5155 [11:46<12:26:56,  8.83s/it]  2%|▏         | 79/5155 [11:54<12:25:14,  8.81s/it]  2%|▏         | 80/5155 [12:04<12:33:39,  8.91s/it]                                                    {'loss': '0.006136', 'grad_norm': '0.391', 'learning_rate': '3.068e-05', 'ppl': '1.006', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '138.1', 'tokens/total': 1310720, 'tokens/trainable': 418120, 'epoch': '0.07758'}
+  2%|▏         | 80/5155 [12:04<12:33:39,  8.91s/it]  2%|▏         | 81/5155 [12:12<12:29:28,  8.86s/it]  2%|▏         | 82/5155 [12:21<12:26:35,  8.83s/it]  2%|▏         | 83/5155 [12:30<12:24:37,  8.81s/it]  2%|▏         | 84/5155 [12:39<12:23:23,  8.80s/it]  2%|▏         | 85/5155 [12:48<12:31:31,  8.89s/it]  2%|▏         | 86/5155 [12:56<12:27:57,  8.85s/it]  2%|▏         | 87/5155 [13:05<12:25:14,  8.82s/it]  2%|▏         | 88/5155 [13:14<12:23:06,  8.80s/it]  2%|▏         | 89/5155 [13:23<12:30:55,  8.89s/it]  2%|▏         | 90/5155 [13:32<12:27:19,  8.85s/it]                                                    {'loss': '0.004205', 'grad_norm': '0.08231', 'learning_rate': '3.456e-05', 'ppl': '1.004', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '150.7', 'tokens/total': 1474560, 'tokens/trainable': 470244, 'epoch': '0.08727'}
+  2%|▏         | 90/5155 [13:32<12:27:19,  8.85s/it]  2%|▏         | 91/5155 [13:41<12:25:07,  8.83s/it]  2%|▏         | 92/5155 [13:49<12:23:23,  8.81s/it]  2%|▏         | 93/5155 [13:58<12:22:06,  8.80s/it]  2%|▏         | 94/5155 [14:07<12:30:40,  8.90s/it]  2%|▏         | 95/5155 [14:16<12:26:42,  8.85s/it]  2%|▏         | 96/5155 [14:25<12:23:53,  8.82s/it]  2%|▏         | 97/5155 [14:33<12:21:58,  8.80s/it]  2%|▏         | 98/5155 [14:43<12:29:34,  8.89s/it]  2%|▏         | 99/5155 [14:51<12:26:00,  8.85s/it]  2%|▏         | 100/5155 [15:00<12:23:40,  8.83s/it]                                                     {'loss': '0.003625', 'grad_norm': '0.133', 'learning_rate': '3.845e-05', 'ppl': '1.004', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '149.1', 'tokens/total': 1638400, 'tokens/trainable': 522666, 'epoch': '0.09697'}
+  2%|▏         | 100/5155 [15:00<12:23:40,  8.83s/it]  2%|▏         | 101/5155 [15:09<12:21:44,  8.81s/it]  2%|▏         | 102/5155 [15:18<12:19:57,  8.79s/it]  2%|▏         | 103/5155 [15:27<12:29:04,  8.90s/it]  2%|▏         | 104/5155 [15:36<12:25:08,  8.85s/it]  2%|▏         | 105/5155 [15:44<12:22:39,  8.82s/it]  2%|▏         | 106/5155 [15:53<12:20:58,  8.81s/it]  2%|▏         | 107/5155 [16:02<12:29:54,  8.91s/it]  2%|▏         | 108/5155 [16:11<12:25:58,  8.87s/it]  2%|▏         | 109/5155 [16:20<12:22:47,  8.83s/it]  2%|▏         | 110/5155 [16:28<12:20:22,  8.81s/it]                                                     {'loss': '0.003874', 'grad_norm': '0.243', 'learning_rate': '4.233e-05', 'ppl': '1.004', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '141.7', 'tokens/total': 1802240, 'tokens/trainable': 574329, 'epoch': '0.1067'}
+  2%|▏         | 110/5155 [16:28<12:20:22,  8.81s/it]  2%|▏         | 111/5155 [16:37<12:18:57,  8.79s/it]  2%|▏         | 112/5155 [16:46<12:27:26,  8.89s/it]  2%|▏         | 113/5155 [16:55<12:24:08,  8.86s/it]  2%|▏         | 114/5155 [17:04<12:21:16,  8.82s/it]  2%|▏         | 115/5155 [17:13<12:19:30,  8.80s/it]  2%|▏         | 116/5155 [17:22<12:27:26,  8.90s/it]  2%|▏         | 117/5155 [17:30<12:23:30,  8.85s/it]  2%|▏         | 118/5155 [17:39<12:21:02,  8.83s/it]  2%|▏         | 119/5155 [17:48<12:18:56,  8.80s/it]  2%|▏         | 120/5155 [17:57<12:17:46,  8.79s/it]                                                     {'loss': '0.00238', 'grad_norm': '0.09348', 'learning_rate': '4.621e-05', 'ppl': '1.002', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '143.3', 'tokens/total': 1966080, 'tokens/trainable': 626194, 'epoch': '0.1164'}
+  2%|▏         | 120/5155 [17:57<12:17:46,  8.79s/it]  2%|▏         | 121/5155 [18:06<12:26:27,  8.90s/it]  2%|▏         | 122/5155 [18:15<12:22:53,  8.86s/it]  2%|▏         | 123/5155 [18:23<12:20:19,  8.83s/it]  2%|▏         | 124/5155 [18:32<12:18:28,  8.81s/it]  2%|▏         | 125/5155 [18:41<12:27:12,  8.91s/it]  2%|▏         | 126/5155 [18:50<12:23:05,  8.87s/it]  2%|▏         | 127/5155 [18:59<12:19:58,  8.83s/it]  2%|▏         | 128/5155 [19:08<12:17:59,  8.81s/it]  3%|▎         | 129/5155 [19:16<12:16:21,  8.79s/it]  3%|▎         | 130/5155 [19:26<12:25:22,  8.90s/it]                                                     {'loss': '0.00154', 'grad_norm': '0.1339', 'learning_rate': '5.01e-05', 'ppl': '1.002', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '140.1', 'tokens/total': 2129920, 'tokens/trainable': 678140, 'epoch': '0.1261'}
+  3%|▎         | 130/5155 [19:26<12:25:22,  8.90s/it]  3%|▎         | 131/5155 [19:34<12:21:40,  8.86s/it]  3%|▎         | 132/5155 [19:43<12:19:08,  8.83s/it]  3%|▎         | 133/5155 [19:52<12:17:30,  8.81s/it]  3%|▎         | 134/5155 [20:01<12:26:04,  8.92s/it]  3%|▎         | 135/5155 [20:10<12:22:03,  8.87s/it]  3%|▎         | 136/5155 [20:18<12:19:04,  8.84s/it]  3%|▎         | 137/5155 [20:27<12:17:16,  8.82s/it]  3%|▎         | 138/5155 [20:36<12:15:50,  8.80s/it]  3%|▎         | 139/5155 [20:45<12:24:42,  8.91s/it]  3%|▎         | 140/5155 [20:54<12:20:57,  8.86s/it]                                                     {'loss': '0.001997', 'grad_norm': '0.1334', 'learning_rate': '5.398e-05', 'ppl': '1.002', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '144.1', 'tokens/total': 2293760, 'tokens/trainable': 730201, 'epoch': '0.1358'}
+  3%|▎         | 140/5155 [20:54<12:20:57,  8.86s/it]  3%|▎         | 141/5155 [21:03<12:18:23,  8.84s/it]  3%|▎         | 142/5155 [21:11<12:16:24,  8.81s/it]  3%|▎         | 143/5155 [21:21<12:24:30,  8.91s/it]  3%|▎         | 144/5155 [21:29<12:20:01,  8.86s/it]  3%|▎         | 145/5155 [21:38<12:17:06,  8.83s/it]  3%|▎         | 146/5155 [21:47<12:14:55,  8.80s/it]  3%|▎         | 147/5155 [21:56<12:13:16,  8.79s/it]  3%|▎         | 148/5155 [22:05<12:22:06,  8.89s/it]  3%|▎         | 149/5155 [22:13<12:18:34,  8.85s/it]  3%|▎         | 150/5155 [22:22<12:15:37,  8.82s/it]                                                     {'loss': '0.001513', 'grad_norm': '0.02992', 'learning_rate': '5.786e-05', 'ppl': '1.002', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '158', 'tokens/total': 2457600, 'tokens/trainable': 782196, 'epoch': '0.1455'}
+  3%|▎         | 150/5155 [22:22<12:15:37,  8.82s/it]  3%|▎         | 151/5155 [22:31<12:13:52,  8.80s/it]  3%|▎         | 152/5155 [22:40<12:22:22,  8.90s/it]  3%|▎         | 153/5155 [22:49<12:18:45,  8.86s/it]  3%|▎         | 154/5155 [22:58<12:15:56,  8.83s/it]  3%|▎         | 155/5155 [23:06<12:14:00,  8.81s/it]  3%|▎         | 156/5155 [23:15<12:12:43,  8.79s/it]  3%|▎         | 157/5155 [23:24<12:21:14,  8.90s/it]  3%|▎         | 158/5155 [23:33<12:17:15,  8.85s/it]  3%|▎         | 159/5155 [23:42<12:14:46,  8.82s/it]  3%|▎         | 160/5155 [23:51<12:12:45,  8.80s/it]                                                     {'loss': '0.001288', 'grad_norm': '0.04438', 'learning_rate': '6.175e-05', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '146.4', 'tokens/total': 2621440, 'tokens/trainable': 833614, 'epoch': '0.1552'}
+  3%|▎         | 160/5155 [23:51<12:12:45,  8.80s/it]  3%|▎         | 161/5155 [24:00<12:20:55,  8.90s/it]  3%|▎         | 162/5155 [24:08<12:17:02,  8.86s/it]  3%|▎         | 163/5155 [24:17<12:14:19,  8.83s/it]  3%|▎         | 164/5155 [24:26<12:12:11,  8.80s/it]  3%|▎         | 165/5155 [24:35<12:10:42,  8.79s/it]  3%|▎         | 166/5155 [24:44<12:19:28,  8.89s/it]  3%|▎         | 167/5155 [24:53<12:15:37,  8.85s/it]  3%|▎         | 168/5155 [25:01<12:13:14,  8.82s/it]  3%|▎         | 169/5155 [25:10<12:11:18,  8.80s/it]  3%|▎         | 170/5155 [25:19<12:18:43,  8.89s/it]                                                     {'loss': '0.001164', 'grad_norm': '0.01404', 'learning_rate': '6.563e-05', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '139.5', 'tokens/total': 2785280, 'tokens/trainable': 885591, 'epoch': '0.1648'}
+  3%|▎         | 170/5155 [25:19<12:18:43,  8.89s/it]  3%|▎         | 171/5155 [25:28<12:15:06,  8.85s/it]  3%|▎         | 172/5155 [25:37<12:12:27,  8.82s/it]  3%|▎         | 173/5155 [25:45<12:10:25,  8.80s/it]  3%|▎         | 174/5155 [25:55<12:18:42,  8.90s/it]  3%|▎         | 175/5155 [26:03<12:14:47,  8.85s/it]  3%|▎         | 176/5155 [26:12<12:12:00,  8.82s/it]  3%|▎         | 177/5155 [26:21<12:09:57,  8.80s/it]  3%|▎         | 178/5155 [26:30<12:08:41,  8.78s/it]  3%|▎         | 179/5155 [26:39<12:16:57,  8.89s/it]  3%|▎         | 180/5155 [26:47<12:13:10,  8.84s/it]                                                     {'loss': '0.0007388', 'grad_norm': '0.003326', 'learning_rate': '6.951e-05', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '143.7', 'tokens/total': 2949120, 'tokens/trainable': 937712, 'epoch': '0.1745'}
+  3%|▎         | 180/5155 [26:47<12:13:10,  8.84s/it]  4%|▎         | 181/5155 [26:56<12:10:38,  8.81s/it]  4%|▎         | 182/5155 [27:05<12:08:55,  8.79s/it]  4%|▎         | 183/5155 [27:14<12:16:29,  8.89s/it]  4%|▎         | 184/5155 [27:23<12:12:34,  8.84s/it]  4%|▎         | 185/5155 [27:32<12:10:01,  8.81s/it]  4%|▎         | 186/5155 [27:40<12:08:15,  8.79s/it]  4%|▎         | 187/5155 [27:49<12:06:47,  8.78s/it]  4%|▎         | 188/5155 [27:58<12:15:24,  8.88s/it]  4%|▎         | 189/5155 [28:07<12:11:48,  8.84s/it]  4%|▎         | 190/5155 [28:16<12:09:11,  8.81s/it]                                                     {'loss': '0.0008642', 'grad_norm': '0.01048', 'learning_rate': '7.34e-05', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '155.2', 'tokens/total': 3112960, 'tokens/trainable': 989913, 'epoch': '0.1842'}
+  4%|▎         | 190/5155 [28:16<12:09:11,  8.81s/it]  4%|▎         | 191/5155 [28:24<12:07:29,  8.79s/it]  4%|▎         | 192/5155 [28:34<12:15:55,  8.90s/it]  4%|▎         | 193/5155 [28:42<12:12:28,  8.86s/it]  4%|▍         | 194/5155 [28:51<12:10:04,  8.83s/it]  4%|▍         | 195/5155 [29:00<12:08:11,  8.81s/it]  4%|▍         | 196/5155 [29:09<12:06:33,  8.79s/it]  4%|▍         | 197/5155 [29:18<12:14:12,  8.89s/it]  4%|▍         | 198/5155 [29:26<12:10:58,  8.85s/it]  4%|▍         | 199/5155 [29:35<12:08:30,  8.82s/it]  4%|▍         | 200/5155 [29:44<12:06:54,  8.80s/it]                                                     {'loss': '0.0007611', 'grad_norm': '0.01253', 'learning_rate': '7.728e-05', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '141.7', 'tokens/total': 3276800, 'tokens/trainable': 1041978, 'epoch': '0.1939'}
+  4%|▍         | 200/5155 [29:44<12:06:54,  8.80s/it]  4%|▍         | 201/5155 [29:53<12:15:28,  8.91s/it]  4%|▍         | 202/5155 [30:02<12:11:23,  8.86s/it]  4%|▍         | 203/5155 [30:11<12:08:23,  8.83s/it]  4%|▍         | 204/5155 [30:19<12:06:03,  8.80s/it]  4%|▍         | 205/5155 [30:28<12:04:26,  8.78s/it]  4%|▍         | 206/5155 [30:37<12:12:50,  8.88s/it]  4%|▍         | 207/5155 [30:46<12:09:32,  8.85s/it]  4%|▍         | 208/5155 [30:55<12:06:51,  8.82s/it]  4%|▍         | 209/5155 [31:03<12:05:07,  8.80s/it]  4%|▍         | 210/5155 [31:13<12:12:51,  8.89s/it]                                                     {'loss': '0.0007698', 'grad_norm': '0.0178', 'learning_rate': '8.117e-05', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '141.2', 'tokens/total': 3440640, 'tokens/trainable': 1093395, 'epoch': '0.2036'}
+  4%|▍         | 210/5155 [31:13<12:12:51,  8.89s/it]  4%|▍         | 211/5155 [31:21<12:09:01,  8.85s/it]  4%|▍         | 212/5155 [31:30<12:06:11,  8.81s/it]  4%|▍         | 213/5155 [31:39<12:04:21,  8.79s/it]  4%|▍         | 214/5155 [31:48<12:03:04,  8.78s/it]  4%|▍         | 215/5155 [31:57<12:11:05,  8.88s/it]  4%|▍         | 216/5155 [32:05<12:07:36,  8.84s/it]  4%|▍         | 217/5155 [32:14<12:05:13,  8.81s/it]  4%|▍         | 218/5155 [32:23<12:03:51,  8.80s/it]  4%|▍         | 219/5155 [32:32<12:11:43,  8.89s/it]  4%|▍         | 220/5155 [32:41<12:08:05,  8.85s/it]                                                     {'loss': '0.0006536', 'grad_norm': '0.169', 'learning_rate': '8.505e-05', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '147.2', 'tokens/total': 3604480, 'tokens/trainable': 1145329, 'epoch': '0.2133'}
+  4%|▍         | 220/5155 [32:41<12:08:05,  8.85s/it]  4%|▍         | 221/5155 [32:50<12:05:20,  8.82s/it]  4%|▍         | 222/5155 [32:58<12:03:16,  8.80s/it]  4%|▍         | 223/5155 [33:07<12:01:53,  8.78s/it]  4%|▍         | 224/5155 [33:16<12:10:06,  8.88s/it]  4%|▍         | 225/5155 [33:25<12:06:31,  8.84s/it]  4%|▍         | 226/5155 [33:34<12:03:54,  8.81s/it]  4%|▍         | 227/5155 [33:42<12:02:29,  8.80s/it]  4%|▍         | 228/5155 [33:52<12:10:26,  8.90s/it]  4%|▍         | 229/5155 [34:00<12:06:24,  8.85s/it]  4%|▍         | 230/5155 [34:09<12:03:34,  8.82s/it]                                                     {'loss': '0.000951', 'grad_norm': '0.08973', 'learning_rate': '8.893e-05', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '146.7', 'tokens/total': 3768320, 'tokens/trainable': 1197537, 'epoch': '0.223'}
+  4%|▍         | 230/5155 [34:09<12:03:34,  8.82s/it]  4%|▍         | 231/5155 [34:18<12:01:41,  8.79s/it]  5%|▍         | 232/5155 [34:26<12:00:04,  8.78s/it]  5%|▍         | 233/5155 [34:36<12:08:34,  8.88s/it]  5%|▍         | 234/5155 [34:44<12:05:06,  8.84s/it]  5%|▍         | 235/5155 [34:53<12:02:44,  8.81s/it]  5%|▍         | 236/5155 [35:02<12:01:06,  8.80s/it]  5%|▍         | 237/5155 [35:11<12:09:42,  8.90s/it]  5%|▍         | 238/5155 [35:20<12:06:07,  8.86s/it]  5%|▍         | 239/5155 [35:29<12:03:22,  8.83s/it]  5%|▍         | 240/5155 [35:37<12:01:18,  8.81s/it]                                                     {'loss': '0.001187', 'grad_norm': '0.04494', 'learning_rate': '9.282e-05', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '153.9', 'tokens/total': 3932160, 'tokens/trainable': 1249924, 'epoch': '0.2327'}
+  5%|▍         | 240/5155 [35:37<12:01:18,  8.81s/it]  5%|▍         | 241/5155 [35:46<11:59:44,  8.79s/it]  5%|▍         | 242/5155 [35:55<12:07:23,  8.88s/it]  5%|▍         | 243/5155 [36:04<12:03:50,  8.84s/it]  5%|▍         | 244/5155 [36:13<12:01:24,  8.81s/it]  5%|▍         | 245/5155 [36:21<11:59:35,  8.79s/it]  5%|▍         | 246/5155 [36:30<12:07:35,  8.89s/it]  5%|▍         | 247/5155 [36:39<12:03:50,  8.85s/it]  5%|▍         | 248/5155 [36:48<12:01:15,  8.82s/it]  5%|▍         | 249/5155 [36:57<11:59:29,  8.80s/it]  5%|▍         | 250/5155 [37:06<12:07:54,  8.90s/it]                                                     {'loss': '0.001338', 'grad_norm': '0.0885', 'learning_rate': '9.67e-05', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '150.6', 'tokens/total': 4096000, 'tokens/trainable': 1301558, 'epoch': '0.2424'}
+  5%|▍         | 250/5155 [37:06<12:07:54,  8.90s/it]  5%|▍         | 251/5155 [37:15<12:04:07,  8.86s/it]  5%|▍         | 252/5155 [37:23<12:01:02,  8.82s/it]  5%|▍         | 253/5155 [37:32<11:59:07,  8.80s/it]  5%|▍         | 254/5155 [37:41<11:57:43,  8.79s/it]  5%|▍         | 255/5155 [37:50<12:05:46,  8.89s/it]  5%|▍         | 256/5155 [37:59<12:02:08,  8.84s/it]  5%|▍         | 257/5155 [38:07<11:59:39,  8.82s/it]  5%|▌         | 258/5155 [38:16<11:57:46,  8.79s/it]  5%|▌         | 259/5155 [38:25<12:05:09,  8.89s/it]  5%|▌         | 260/5155 [38:34<12:01:54,  8.85s/it]                                                     {'loss': '0.0008709', 'grad_norm': '0.1015', 'learning_rate': '0.0001006', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '151.6', 'tokens/total': 4259840, 'tokens/trainable': 1353706, 'epoch': '0.2521'}
+  5%|▌         | 260/5155 [38:34<12:01:54,  8.85s/it]  5%|▌         | 261/5155 [38:43<11:59:36,  8.82s/it]  5%|▌         | 262/5155 [38:52<11:57:55,  8.80s/it]  5%|▌         | 263/5155 [39:00<11:56:55,  8.79s/it]  5%|▌         | 264/5155 [39:10<12:05:19,  8.90s/it]  5%|▌         | 265/5155 [39:18<12:01:39,  8.85s/it]  5%|▌         | 266/5155 [39:27<11:59:07,  8.83s/it]  5%|▌         | 267/5155 [39:36<11:57:11,  8.80s/it]  5%|▌         | 268/5155 [39:45<12:05:39,  8.91s/it]  5%|▌         | 269/5155 [39:54<12:01:53,  8.86s/it]  5%|▌         | 270/5155 [40:02<11:59:03,  8.83s/it]                                                     {'loss': '0.00133', 'grad_norm': '0.08298', 'learning_rate': '0.0001045', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '151.1', 'tokens/total': 4423680, 'tokens/trainable': 1405519, 'epoch': '0.2618'}
+  5%|▌         | 270/5155 [40:02<11:59:03,  8.83s/it]  5%|▌         | 271/5155 [40:11<11:57:00,  8.81s/it]  5%|▌         | 272/5155 [40:20<11:55:20,  8.79s/it]  5%|▌         | 273/5155 [40:29<12:03:07,  8.89s/it]  5%|▌         | 274/5155 [40:38<11:59:43,  8.85s/it]  5%|▌         | 275/5155 [40:47<11:57:22,  8.82s/it]  5%|▌         | 276/5155 [40:55<11:55:32,  8.80s/it]  5%|▌         | 277/5155 [41:04<12:03:20,  8.90s/it]  5%|▌         | 278/5155 [41:13<11:59:22,  8.85s/it]  5%|▌         | 279/5155 [41:22<11:56:36,  8.82s/it]  5%|▌         | 280/5155 [41:31<11:54:48,  8.80s/it]                                                     {'loss': '0.0006869', 'grad_norm': '0.03734', 'learning_rate': '0.0001083', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '150.7', 'tokens/total': 4587520, 'tokens/trainable': 1457494, 'epoch': '0.2715'}
+  5%|▌         | 280/5155 [41:31<11:54:48,  8.80s/it]  5%|▌         | 281/5155 [41:39<11:53:29,  8.78s/it]  5%|▌         | 282/5155 [41:49<12:01:10,  8.88s/it]  5%|▌         | 283/5155 [41:57<11:57:42,  8.84s/it]  6%|▌         | 284/5155 [42:06<11:55:23,  8.81s/it]  6%|▌         | 285/5155 [42:15<11:53:46,  8.79s/it]  6%|▌         | 286/5155 [42:24<12:01:34,  8.89s/it]  6%|▌         | 287/5155 [42:33<11:58:06,  8.85s/it]  6%|▌         | 288/5155 [42:41<11:55:43,  8.82s/it]  6%|▌         | 289/5155 [42:50<11:53:47,  8.80s/it]  6%|▌         | 290/5155 [42:59<11:52:11,  8.78s/it]                                                     {'loss': '0.001355', 'grad_norm': '0.07898', 'learning_rate': '0.0001122', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '147.5', 'tokens/total': 4751360, 'tokens/trainable': 1509320, 'epoch': '0.2812'}
+  6%|▌         | 290/5155 [42:59<11:52:11,  8.78s/it]  6%|▌         | 291/5155 [43:08<12:00:17,  8.89s/it]  6%|▌         | 292/5155 [43:17<11:57:56,  8.86s/it]  6%|▌         | 293/5155 [43:26<11:55:35,  8.83s/it]  6%|▌         | 294/5155 [43:34<11:53:40,  8.81s/it]  6%|▌         | 295/5155 [43:44<12:01:35,  8.91s/it]  6%|▌         | 296/5155 [43:52<11:57:30,  8.86s/it]  6%|▌         | 297/5155 [44:01<11:54:32,  8.83s/it]  6%|▌         | 298/5155 [44:10<11:52:19,  8.80s/it]  6%|▌         | 299/5155 [44:18<11:51:16,  8.79s/it]  6%|▌         | 300/5155 [44:28<11:59:26,  8.89s/it]                                                     {'loss': '0.001012', 'grad_norm': '0.0632', 'learning_rate': '0.0001161', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '141.9', 'tokens/total': 4915200, 'tokens/trainable': 1561332, 'epoch': '0.2909'}
+  6%|▌         | 300/5155 [44:28<11:59:26,  8.89s/it]  6%|▌         | 301/5155 [44:36<11:56:11,  8.85s/it]  6%|▌         | 302/5155 [44:45<11:54:27,  8.83s/it]  6%|▌         | 303/5155 [44:54<11:53:15,  8.82s/it]  6%|▌         | 304/5155 [45:03<12:01:09,  8.92s/it]  6%|▌         | 305/5155 [45:12<11:57:23,  8.87s/it]  6%|▌         | 306/5155 [45:21<11:55:05,  8.85s/it]  6%|▌         | 307/5155 [45:29<11:52:37,  8.82s/it]  6%|▌         | 308/5155 [45:38<11:50:40,  8.80s/it]  6%|▌         | 309/5155 [45:47<11:59:07,  8.90s/it]  6%|▌         | 310/5155 [45:56<11:55:26,  8.86s/it]                                                     {'loss': '0.00065', 'grad_norm': '0.01375', 'learning_rate': '0.00012', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '148.4', 'tokens/total': 5079040, 'tokens/trainable': 1613189, 'epoch': '0.3006'}
+  6%|▌         | 310/5155 [45:56<11:55:26,  8.86s/it]  6%|▌         | 311/5155 [46:05<11:52:42,  8.83s/it]  6%|▌         | 312/5155 [46:14<11:50:56,  8.81s/it]  6%|▌         | 313/5155 [46:23<11:58:19,  8.90s/it]  6%|▌         | 314/5155 [46:31<11:54:32,  8.86s/it]  6%|▌         | 315/5155 [46:40<11:51:54,  8.83s/it]  6%|▌         | 316/5155 [46:49<11:50:23,  8.81s/it]  6%|▌         | 317/5155 [46:58<11:48:49,  8.79s/it]  6%|▌         | 318/5155 [47:07<11:56:56,  8.89s/it]  6%|▌         | 319/5155 [47:16<11:53:11,  8.85s/it]  6%|▌         | 320/5155 [47:24<11:50:55,  8.82s/it]                                                     {'loss': '0.0008866', 'grad_norm': '0.03396', 'learning_rate': '0.0001239', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '157.8', 'tokens/total': 5242880, 'tokens/trainable': 1665681, 'epoch': '0.3103'}
+  6%|▌         | 320/5155 [47:24<11:50:55,  8.82s/it]  6%|▌         | 321/5155 [47:33<11:49:02,  8.80s/it]  6%|▌         | 322/5155 [47:42<11:57:02,  8.90s/it]  6%|▋         | 323/5155 [47:51<11:53:25,  8.86s/it]  6%|▋         | 324/5155 [48:00<11:50:43,  8.83s/it]  6%|▋         | 325/5155 [48:09<11:48:56,  8.81s/it]  6%|▋         | 326/5155 [48:17<11:47:18,  8.79s/it]  6%|▋         | 327/5155 [48:26<11:55:09,  8.89s/it]  6%|▋         | 328/5155 [48:35<11:51:38,  8.85s/it]  6%|▋         | 329/5155 [48:44<11:49:22,  8.82s/it]  6%|▋         | 330/5155 [48:53<11:47:25,  8.80s/it]                                                     {'loss': '0.000557', 'grad_norm': '0.04328', 'learning_rate': '0.0001278', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '149.2', 'tokens/total': 5406720, 'tokens/trainable': 1718317, 'epoch': '0.32'}
+  6%|▋         | 330/5155 [48:53<11:47:25,  8.80s/it]  6%|▋         | 331/5155 [49:02<11:55:12,  8.90s/it]  6%|▋         | 332/5155 [49:11<11:51:48,  8.86s/it]  6%|▋         | 333/5155 [49:19<11:49:27,  8.83s/it]  6%|▋         | 334/5155 [49:28<11:47:48,  8.81s/it]  6%|▋         | 335/5155 [49:37<11:46:30,  8.79s/it]  7%|▋         | 336/5155 [49:46<11:54:40,  8.90s/it]  7%|▋         | 337/5155 [49:55<11:51:25,  8.86s/it]  7%|▋         | 338/5155 [50:03<11:48:53,  8.83s/it]  7%|▋         | 339/5155 [50:12<11:46:38,  8.80s/it]  7%|▋         | 340/5155 [50:21<11:53:44,  8.89s/it]                                                     {'loss': '0.0003776', 'grad_norm': '0.02718', 'learning_rate': '0.0001317', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '144.2', 'tokens/total': 5570560, 'tokens/trainable': 1770210, 'epoch': '0.3297'}
+  7%|▋         | 340/5155 [50:21<11:53:44,  8.89s/it]  7%|▋         | 341/5155 [50:30<11:50:03,  8.85s/it]  7%|▋         | 342/5155 [50:39<11:47:35,  8.82s/it]  7%|▋         | 343/5155 [50:48<11:45:34,  8.80s/it]  7%|▋         | 344/5155 [50:56<11:44:18,  8.78s/it]  7%|▋         | 345/5155 [51:05<11:52:34,  8.89s/it]  7%|▋         | 346/5155 [51:14<11:49:16,  8.85s/it]  7%|▋         | 347/5155 [51:23<11:46:52,  8.82s/it]  7%|▋         | 348/5155 [51:32<11:44:57,  8.80s/it]  7%|▋         | 349/5155 [51:41<11:52:15,  8.89s/it]  7%|▋         | 350/5155 [51:50<11:48:28,  8.85s/it]                                                     {'loss': '0.0005293', 'grad_norm': '0.002824', 'learning_rate': '0.0001355', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '164', 'tokens/total': 5734400, 'tokens/trainable': 1821987, 'epoch': '0.3394'}
+  7%|▋         | 350/5155 [51:50<11:48:28,  8.85s/it]  7%|▋         | 351/5155 [51:58<11:46:02,  8.82s/it]  7%|▋         | 352/5155 [52:07<11:44:39,  8.80s/it]  7%|▋         | 353/5155 [52:16<11:43:14,  8.79s/it]  7%|▋         | 354/5155 [52:25<11:51:03,  8.89s/it]  7%|▋         | 355/5155 [52:34<11:47:28,  8.84s/it]  7%|▋         | 356/5155 [52:42<11:45:08,  8.82s/it]  7%|▋         | 357/5155 [52:51<11:43:11,  8.79s/it]  7%|▋         | 358/5155 [53:00<11:50:30,  8.89s/it]  7%|▋         | 359/5155 [53:09<11:47:16,  8.85s/it]  7%|▋         | 360/5155 [53:18<11:44:40,  8.82s/it]                                                     {'loss': '0.0006786', 'grad_norm': '0.03108', 'learning_rate': '0.0001394', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '147.2', 'tokens/total': 5898240, 'tokens/trainable': 1874266, 'epoch': '0.3491'}
+  7%|▋         | 360/5155 [53:18<11:44:40,  8.82s/it]  7%|▋         | 361/5155 [53:27<11:42:54,  8.80s/it]  7%|▋         | 362/5155 [53:35<11:41:47,  8.79s/it]  7%|▋         | 363/5155 [53:44<11:49:30,  8.88s/it]  7%|▋         | 364/5155 [53:53<11:46:32,  8.85s/it]  7%|▋         | 365/5155 [54:02<11:44:16,  8.82s/it]  7%|▋         | 366/5155 [54:11<11:43:06,  8.81s/it]  7%|▋         | 367/5155 [54:20<11:50:24,  8.90s/it]  7%|▋         | 368/5155 [54:29<11:46:52,  8.86s/it]  7%|▋         | 369/5155 [54:37<11:44:16,  8.83s/it]  7%|▋         | 370/5155 [54:46<11:42:25,  8.81s/it]                                                     {'loss': '0.001398', 'grad_norm': '0.1733', 'learning_rate': '0.0001433', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '137.3', 'tokens/total': 6062080, 'tokens/trainable': 1926124, 'epoch': '0.3588'}
+  7%|▋         | 370/5155 [54:46<11:42:25,  8.81s/it]  7%|▋         | 371/5155 [54:55<11:41:00,  8.79s/it]  7%|▋         | 372/5155 [55:04<11:48:56,  8.89s/it]  7%|▋         | 373/5155 [55:13<11:45:36,  8.85s/it]  7%|▋         | 374/5155 [55:22<11:42:44,  8.82s/it]  7%|▋         | 375/5155 [55:30<11:40:47,  8.80s/it]  7%|▋         | 376/5155 [55:39<11:48:39,  8.90s/it]  7%|▋         | 377/5155 [55:48<11:44:38,  8.85s/it]  7%|▋         | 378/5155 [55:57<11:42:13,  8.82s/it]  7%|▋         | 379/5155 [56:06<11:40:25,  8.80s/it]  7%|▋         | 380/5155 [56:14<11:39:08,  8.79s/it]                                                     {'loss': '0.000682', 'grad_norm': '0.07739', 'learning_rate': '0.0001472', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '140.4', 'tokens/total': 6225920, 'tokens/trainable': 1978693, 'epoch': '0.3685'}
+  7%|▋         | 380/5155 [56:14<11:39:08,  8.79s/it]  7%|▋         | 381/5155 [56:24<11:46:46,  8.88s/it]  7%|▋         | 382/5155 [56:32<11:43:36,  8.84s/it]  7%|▋         | 383/5155 [56:41<11:41:17,  8.82s/it]  7%|▋         | 384/5155 [56:50<11:39:37,  8.80s/it]  7%|▋         | 385/5155 [56:59<11:47:03,  8.89s/it]  7%|▋         | 386/5155 [57:08<11:43:17,  8.85s/it]  8%|▊         | 387/5155 [57:16<11:40:58,  8.82s/it]  8%|▊         | 388/5155 [57:25<11:39:04,  8.80s/it]  8%|▊         | 389/5155 [57:34<11:37:45,  8.78s/it]  8%|▊         | 390/5155 [57:43<11:45:31,  8.88s/it]                                                     {'loss': '0.0006388', 'grad_norm': '0.1002', 'learning_rate': '0.0001511', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '133.4', 'tokens/total': 6389760, 'tokens/trainable': 2030378, 'epoch': '0.3782'}
+  8%|▊         | 390/5155 [57:43<11:45:31,  8.88s/it]  8%|▊         | 391/5155 [57:52<11:42:17,  8.85s/it]  8%|▊         | 392/5155 [58:01<11:39:54,  8.82s/it]  8%|▊         | 393/5155 [58:09<11:38:14,  8.80s/it]  8%|▊         | 394/5155 [58:18<11:45:31,  8.89s/it]  8%|▊         | 395/5155 [58:27<11:41:55,  8.85s/it]  8%|▊         | 396/5155 [58:36<11:39:31,  8.82s/it]  8%|▊         | 397/5155 [58:45<11:37:31,  8.80s/it]  8%|▊         | 398/5155 [58:53<11:36:12,  8.78s/it]  8%|▊         | 399/5155 [59:02<11:43:32,  8.88s/it]  8%|▊         | 400/5155 [59:11<11:40:12,  8.84s/it]                                                     {'loss': '0.002128', 'grad_norm': '0.0496', 'learning_rate': '0.000155', 'ppl': '1.002', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '153.4', 'tokens/total': 6553600, 'tokens/trainable': 2083047, 'epoch': '0.3879'}
+  8%|▊         | 400/5155 [59:11<11:40:12,  8.84s/it]  8%|▊         | 401/5155 [59:20<11:37:59,  8.81s/it]  8%|▊         | 402/5155 [59:29<11:36:21,  8.79s/it]  8%|▊         | 403/5155 [59:38<11:43:51,  8.89s/it]  8%|▊         | 404/5155 [59:47<11:40:28,  8.85s/it]  8%|▊         | 405/5155 [59:55<11:38:02,  8.82s/it]  8%|▊         | 406/5155 [1:00:04<11:36:34,  8.80s/it]  8%|▊         | 407/5155 [1:00:13<11:35:23,  8.79s/it]  8%|▊         | 408/5155 [1:00:22<11:43:17,  8.89s/it]  8%|▊         | 409/5155 [1:00:31<11:40:02,  8.85s/it]  8%|▊         | 410/5155 [1:00:39<11:37:45,  8.82s/it]                                                       {'loss': '0.001862', 'grad_norm': '0.07362', 'learning_rate': '0.0001588', 'ppl': '1.002', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '142.3', 'tokens/total': 6717440, 'tokens/trainable': 2135527, 'epoch': '0.3976'}
+  8%|▊         | 410/5155 [1:00:39<11:37:45,  8.82s/it]  8%|▊         | 411/5155 [1:00:48<11:36:04,  8.80s/it]  8%|▊         | 412/5155 [1:00:57<11:43:17,  8.90s/it]  8%|▊         | 413/5155 [1:01:06<11:39:35,  8.85s/it]  8%|▊         | 414/5155 [1:01:15<11:37:30,  8.83s/it]  8%|▊         | 415/5155 [1:01:24<11:36:20,  8.81s/it]  8%|▊         | 416/5155 [1:01:32<11:35:06,  8.80s/it]  8%|▊         | 417/5155 [1:01:42<11:42:20,  8.89s/it]  8%|▊         | 418/5155 [1:01:50<11:39:54,  8.87s/it]  8%|▊         | 419/5155 [1:01:59<11:37:45,  8.84s/it]  8%|▊         | 420/5155 [1:02:08<11:36:34,  8.83s/it]                                                       {'loss': '0.001158', 'grad_norm': '0.05466', 'learning_rate': '0.0001627', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '147.7', 'tokens/total': 6881280, 'tokens/trainable': 2187636, 'epoch': '0.4073'}
+  8%|▊         | 420/5155 [1:02:08<11:36:34,  8.83s/it]  8%|▊         | 421/5155 [1:02:17<11:43:29,  8.92s/it]  8%|▊         | 422/5155 [1:02:26<11:39:43,  8.87s/it]  8%|▊         | 423/5155 [1:02:35<11:37:36,  8.85s/it]  8%|▊         | 424/5155 [1:02:43<11:35:48,  8.82s/it]  8%|▊         | 425/5155 [1:02:52<11:34:53,  8.81s/it]  8%|▊         | 426/5155 [1:03:01<11:42:52,  8.92s/it]  8%|▊         | 427/5155 [1:03:10<11:39:28,  8.88s/it]  8%|▊         | 428/5155 [1:03:19<11:36:32,  8.84s/it]  8%|▊         | 429/5155 [1:03:28<11:34:24,  8.82s/it]  8%|▊         | 430/5155 [1:03:37<11:42:19,  8.92s/it]                                                       {'loss': '0.005173', 'grad_norm': '0.04331', 'learning_rate': '0.0001666', 'ppl': '1.005', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '137.6', 'tokens/total': 7045120, 'tokens/trainable': 2239006, 'epoch': '0.417'}
+  8%|▊         | 430/5155 [1:03:37<11:42:19,  8.92s/it]  8%|▊         | 431/5155 [1:03:46<11:39:17,  8.88s/it]  8%|▊         | 432/5155 [1:03:54<11:36:52,  8.85s/it]  8%|▊         | 433/5155 [1:04:03<11:35:13,  8.83s/it]  8%|▊         | 434/5155 [1:04:12<11:34:10,  8.82s/it]  8%|▊         | 435/5155 [1:04:21<11:41:30,  8.92s/it]  8%|▊         | 436/5155 [1:04:30<11:36:47,  8.86s/it]  8%|▊         | 437/5155 [1:04:39<11:33:58,  8.83s/it]  8%|▊         | 438/5155 [1:04:47<11:31:33,  8.80s/it]  9%|▊         | 439/5155 [1:04:56<11:38:03,  8.88s/it]  9%|▊         | 440/5155 [1:05:05<11:34:22,  8.84s/it]                                                       {'loss': '0.002428', 'grad_norm': '0.05932', 'learning_rate': '0.0001705', 'ppl': '1.002', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '145.9', 'tokens/total': 7208960, 'tokens/trainable': 2290540, 'epoch': '0.4267'}
+  9%|▊         | 440/5155 [1:05:05<11:34:22,  8.84s/it]  9%|▊         | 441/5155 [1:05:14<11:32:17,  8.81s/it]  9%|▊         | 442/5155 [1:05:23<11:30:46,  8.79s/it]  9%|▊         | 443/5155 [1:05:31<11:29:39,  8.78s/it]  9%|▊         | 444/5155 [1:05:40<11:37:28,  8.88s/it]  9%|▊         | 445/5155 [1:05:49<11:35:20,  8.86s/it]  9%|▊         | 446/5155 [1:05:58<11:33:39,  8.84s/it]  9%|▊         | 447/5155 [1:06:07<11:31:51,  8.82s/it]  9%|▊         | 448/5155 [1:06:16<11:39:08,  8.91s/it]  9%|▊         | 449/5155 [1:06:25<11:36:10,  8.88s/it]  9%|▊         | 450/5155 [1:06:34<11:34:08,  8.85s/it]                                                       {'loss': '0.00139', 'grad_norm': '0.04634', 'learning_rate': '0.0001744', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '147.8', 'tokens/total': 7372800, 'tokens/trainable': 2341852, 'epoch': '0.4364'}
+  9%|▊         | 450/5155 [1:06:34<11:34:08,  8.85s/it]  9%|▊         | 451/5155 [1:06:42<11:32:39,  8.83s/it]  9%|▉         | 452/5155 [1:06:51<11:31:32,  8.82s/it]  9%|▉         | 453/5155 [1:07:00<11:39:21,  8.92s/it]  9%|▉         | 454/5155 [1:07:09<11:34:45,  8.87s/it]  9%|▉         | 455/5155 [1:07:18<11:31:20,  8.83s/it]  9%|▉         | 456/5155 [1:07:26<11:29:03,  8.80s/it]  9%|▉         | 457/5155 [1:07:36<11:35:17,  8.88s/it]  9%|▉         | 458/5155 [1:07:44<11:31:44,  8.84s/it]  9%|▉         | 459/5155 [1:07:53<11:29:36,  8.81s/it]  9%|▉         | 460/5155 [1:08:02<11:28:56,  8.80s/it]                                                       {'loss': '0.001371', 'grad_norm': '0.04817', 'learning_rate': '0.0001783', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '137.7', 'tokens/total': 7536640, 'tokens/trainable': 2393320, 'epoch': '0.4461'}
+  9%|▉         | 460/5155 [1:08:02<11:28:56,  8.80s/it]  9%|▉         | 461/5155 [1:08:11<11:37:15,  8.91s/it]  9%|▉         | 462/5155 [1:08:20<11:34:11,  8.88s/it]  9%|▉         | 463/5155 [1:08:29<11:31:36,  8.84s/it]  9%|▉         | 464/5155 [1:08:37<11:28:42,  8.81s/it]  9%|▉         | 465/5155 [1:08:46<11:26:55,  8.79s/it]  9%|▉         | 466/5155 [1:08:55<11:33:40,  8.88s/it]  9%|▉         | 467/5155 [1:09:04<11:30:00,  8.83s/it]  9%|▉         | 468/5155 [1:09:13<11:27:23,  8.80s/it]  9%|▉         | 469/5155 [1:09:21<11:25:51,  8.78s/it]  9%|▉         | 470/5155 [1:09:30<11:32:54,  8.87s/it]                                                       {'loss': '0.0009715', 'grad_norm': '0.01134', 'learning_rate': '0.0001821', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '145.2', 'tokens/total': 7700480, 'tokens/trainable': 2445170, 'epoch': '0.4558'}
+  9%|▉         | 470/5155 [1:09:30<11:32:54,  8.87s/it]  9%|▉         | 471/5155 [1:09:39<11:29:50,  8.84s/it]  9%|▉         | 472/5155 [1:09:48<11:27:03,  8.80s/it]  9%|▉         | 473/5155 [1:09:57<11:25:38,  8.79s/it]  9%|▉         | 474/5155 [1:10:05<11:24:21,  8.77s/it]  9%|▉         | 475/5155 [1:10:14<11:33:08,  8.89s/it]  9%|▉         | 476/5155 [1:10:23<11:30:50,  8.86s/it]  9%|▉         | 477/5155 [1:10:32<11:28:11,  8.83s/it]  9%|▉         | 478/5155 [1:10:41<11:26:14,  8.80s/it]  9%|▉         | 479/5155 [1:10:50<11:33:38,  8.90s/it]  9%|▉         | 480/5155 [1:10:59<11:30:14,  8.86s/it]                                                       {'loss': '0.0008223', 'grad_norm': '0.05298', 'learning_rate': '0.000186', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '138.7', 'tokens/total': 7864320, 'tokens/trainable': 2497473, 'epoch': '0.4655'}
+  9%|▉         | 480/5155 [1:10:59<11:30:14,  8.86s/it]  9%|▉         | 481/5155 [1:11:07<11:27:29,  8.83s/it]  9%|▉         | 482/5155 [1:11:16<11:25:18,  8.80s/it]  9%|▉         | 483/5155 [1:11:25<11:23:49,  8.78s/it]  9%|▉         | 484/5155 [1:11:34<11:31:27,  8.88s/it]  9%|▉         | 485/5155 [1:11:43<11:28:02,  8.84s/it]  9%|▉         | 486/5155 [1:11:51<11:25:44,  8.81s/it]  9%|▉         | 487/5155 [1:12:00<11:23:53,  8.79s/it]  9%|▉         | 488/5155 [1:12:09<11:31:00,  8.88s/it]  9%|▉         | 489/5155 [1:12:18<11:27:44,  8.84s/it] 10%|▉         | 490/5155 [1:12:27<11:25:21,  8.81s/it]                                                       {'loss': '0.0007488', 'grad_norm': '0.06169', 'learning_rate': '0.0001899', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '154.1', 'tokens/total': 8028160, 'tokens/trainable': 2549206, 'epoch': '0.4752'}
+ 10%|▉         | 490/5155 [1:12:27<11:25:21,  8.81s/it] 10%|▉         | 491/5155 [1:12:36<11:24:05,  8.80s/it] 10%|▉         | 492/5155 [1:12:45<11:31:09,  8.89s/it] 10%|▉         | 493/5155 [1:12:53<11:27:35,  8.85s/it] 10%|▉         | 494/5155 [1:13:02<11:25:13,  8.82s/it] 10%|▉         | 495/5155 [1:13:11<11:23:16,  8.80s/it] 10%|▉         | 496/5155 [1:13:20<11:21:51,  8.78s/it] 10%|▉         | 497/5155 [1:13:29<11:29:22,  8.88s/it] 10%|▉         | 498/5155 [1:13:38<11:26:13,  8.84s/it] 10%|▉         | 499/5155 [1:13:46<11:23:44,  8.81s/it] 10%|▉         | 500/5155 [1:13:55<11:22:03,  8.79s/it]                                                       {'loss': '0.0006062', 'grad_norm': '0.03281', 'learning_rate': '0.0001938', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '144.9', 'tokens/total': 8192000, 'tokens/trainable': 2600583, 'epoch': '0.4848'}
+ 10%|▉         | 500/5155 [1:13:55<11:22:03,  8.79s/it] 10%|▉         | 501/5155 [1:14:04<11:29:37,  8.89s/it] 10%|▉         | 502/5155 [1:14:13<11:26:11,  8.85s/it] 10%|▉         | 503/5155 [1:14:22<11:23:27,  8.82s/it] 10%|▉         | 504/5155 [1:14:30<11:21:26,  8.79s/it] 10%|▉         | 505/5155 [1:14:39<11:20:25,  8.78s/it] 10%|▉         | 506/5155 [1:14:48<11:28:09,  8.88s/it] 10%|▉         | 507/5155 [1:14:57<11:24:42,  8.84s/it] 10%|▉         | 508/5155 [1:15:06<11:22:30,  8.81s/it] 10%|▉         | 509/5155 [1:15:14<11:20:47,  8.79s/it] 10%|▉         | 510/5155 [1:15:24<11:27:51,  8.89s/it]                                                       {'loss': '0.0008583', 'grad_norm': '0.008482', 'learning_rate': '0.0001977', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '138.6', 'tokens/total': 8355840, 'tokens/trainable': 2652927, 'epoch': '0.4945'}
+ 10%|▉         | 510/5155 [1:15:24<11:27:51,  8.89s/it] 10%|▉         | 511/5155 [1:15:32<11:24:31,  8.84s/it] 10%|▉         | 512/5155 [1:15:41<11:22:20,  8.82s/it] 10%|▉         | 513/5155 [1:15:50<11:21:38,  8.81s/it] 10%|▉         | 514/5155 [1:15:59<11:26:02,  8.87s/it] 10%|▉         | 515/5155 [1:16:08<11:32:12,  8.95s/it] 10%|█         | 516/5155 [1:16:17<11:27:49,  8.90s/it][2026-02-26 00:37:03,571] [INFO] [axolotl.core.trainers.base.evaluate:400] [PID:2758243] Running evaluation step...
+[2026-02-26 00:37:04,820] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.5966897010803223
+[2026-02-26 00:37:05,420] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.5993807315826416
+[2026-02-26 00:37:06,002] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.58170485496521
+[2026-02-26 00:37:06,574] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.5722415447235107
+[2026-02-26 00:37:06,575] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:2758243] gather_len_batches: [17]
+
+  0%|          | 0/17 [00:00<?, ?it/s][A
+ 12%|█▏        | 2/17 [00:00<00:04,  3.21it/s][A
+ 18%|█▊        | 3/17 [00:01<00:06,  2.26it/s][A
+ 24%|██▎       | 4/17 [00:01<00:06,  1.95it/s][A
+ 29%|██▉       | 5/17 [00:02<00:07,  1.54it/s][A
+ 35%|███▌      | 6/17 [00:03<00:07,  1.57it/s][A
+ 41%|████      | 7/17 [00:04<00:06,  1.58it/s][A
+ 47%|████▋     | 8/17 [00:04<00:05,  1.58it/s][A
+ 53%|█████▎    | 9/17 [00:05<00:05,  1.46it/s][A
+ 59%|█████▉    | 10/17 [00:06<00:04,  1.51it/s][A
+ 65%|██████▍   | 11/17 [00:06<00:03,  1.53it/s][A
+ 71%|███████   | 12/17 [00:07<00:03,  1.55it/s][A
+ 76%|███████▋  | 13/17 [00:08<00:03,  1.19it/s][A
+ 82%|████████▏ | 14/17 [00:09<00:02,  1.29it/s][A
+ 88%|████████▊ | 15/17 [00:09<00:01,  1.37it/s][A
+ 94%|█████████▍| 16/17 [00:10<00:00,  1.43it/s][A
+100%|██████████| 17/17 [00:11<00:00,  1.39it/s][A                                                       
+                                               [A{'eval_loss': '0.0009036', 'eval_runtime': '12.79', 'eval_samples_per_second': '15.64', 'eval_steps_per_second': '7.82', 'eval_ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'epoch': '0.5004', 'tokens/train_per_sec_per_gpu': '149'}
+ 10%|█         | 516/5155 [1:16:33<11:27:49,  8.90s/it]
+100%|██████████| 17/17 [00:11<00:00,  1.39it/s][A
+                                               [A 10%|█         | 517/5155 [1:16:41<17:31:13, 13.60s/it] 10%|█         | 518/5155 [1:16:50<15:38:44, 12.15s/it] 10%|█         | 519/5155 [1:16:59<14:19:31, 11.12s/it] 10%|█         | 520/5155 [1:17:08<13:23:58, 10.41s/it]                                                       {'loss': '0.0005093', 'grad_norm': '0.04333', 'learning_rate': '0.0002', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '140.9', 'tokens/total': 8519680, 'tokens/trainable': 2705083, 'epoch': '0.5042'}
+ 10%|█         | 520/5155 [1:17:08<13:23:58, 10.41s/it] 10%|█         | 521/5155 [1:17:17<12:55:12, 10.04s/it] 10%|█         | 522/5155 [1:17:26<12:24:57,  9.65s/it] 10%|█         | 523/5155 [1:17:34<12:03:45,  9.38s/it] 10%|█         | 524/5155 [1:17:43<11:54:12,  9.25s/it] 10%|█         | 525/5155 [1:17:52<11:51:14,  9.22s/it] 10%|█         | 526/5155 [1:18:01<11:40:09,  9.08s/it] 10%|█         | 527/5155 [1:18:10<11:32:22,  8.98s/it] 10%|█         | 528/5155 [1:18:19<11:27:08,  8.91s/it] 10%|█         | 529/5155 [1:18:27<11:23:39,  8.87s/it] 10%|█         | 530/5155 [1:18:37<11:29:35,  8.95s/it]                                                       {'loss': '0.0006649', 'grad_norm': '0.02485', 'learning_rate': '0.0002', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '144.4', 'tokens/total': 8683520, 'tokens/trainable': 2756975, 'epoch': '0.5139'}
+ 10%|█         | 530/5155 [1:18:37<11:29:35,  8.95s/it] 10%|█         | 531/5155 [1:18:45<11:24:54,  8.89s/it] 10%|█         | 532/5155 [1:18:54<11:22:05,  8.85s/it] 10%|█         | 533/5155 [1:19:03<11:19:58,  8.83s/it] 10%|█         | 534/5155 [1:19:12<11:26:45,  8.92s/it] 10%|█         | 535/5155 [1:19:21<11:22:44,  8.87s/it] 10%|█         | 536/5155 [1:19:29<11:19:57,  8.83s/it] 10%|█         | 537/5155 [1:19:38<11:18:21,  8.81s/it] 10%|█         | 538/5155 [1:19:47<11:16:52,  8.80s/it] 10%|█         | 539/5155 [1:19:56<11:24:10,  8.89s/it] 10%|█         | 540/5155 [1:20:05<11:21:16,  8.86s/it]                                                       {'loss': '0.0006726', 'grad_norm': '0.03736', 'learning_rate': '0.0002', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '141.6', 'tokens/total': 8847360, 'tokens/trainable': 2808076, 'epoch': '0.5236'}
+ 10%|█         | 540/5155 [1:20:05<11:21:16,  8.86s/it] 10%|█         | 541/5155 [1:20:14<11:19:11,  8.83s/it] 11%|█         | 542/5155 [1:20:22<11:17:25,  8.81s/it] 11%|█         | 543/5155 [1:20:32<11:24:16,  8.90s/it] 11%|█         | 544/5155 [1:20:40<11:20:47,  8.86s/it] 11%|█         | 545/5155 [1:20:49<11:18:15,  8.83s/it] 11%|█         | 546/5155 [1:20:58<11:16:20,  8.80s/it] 11%|█         | 547/5155 [1:21:07<11:15:07,  8.79s/it] 11%|█         | 548/5155 [1:21:16<11:22:32,  8.89s/it] 11%|█         | 549/5155 [1:21:24<11:19:15,  8.85s/it] 11%|█         | 550/5155 [1:21:33<11:16:48,  8.82s/it]                                                       {'loss': '0.0007897', 'grad_norm': '0.05157', 'learning_rate': '0.0002', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '163.6', 'tokens/total': 9011200, 'tokens/trainable': 2859893, 'epoch': '0.5333'}
+ 11%|█         | 550/5155 [1:21:33<11:16:48,  8.82s/it] 11%|█         | 551/5155 [1:21:42<11:15:08,  8.80s/it] 11%|█         | 552/5155 [1:21:51<11:22:23,  8.90s/it] 11%|█         | 553/5155 [1:22:00<11:18:49,  8.85s/it] 11%|█         | 554/5155 [1:22:09<11:16:32,  8.82s/it] 11%|█         | 555/5155 [1:22:17<11:14:48,  8.80s/it] 11%|█         | 556/5155 [1:22:26<11:13:50,  8.79s/it] 11%|█         | 557/5155 [1:22:35<11:21:34,  8.89s/it] 11%|█         | 558/5155 [1:22:44<11:18:06,  8.85s/it] 11%|█         | 559/5155 [1:22:53<11:15:31,  8.82s/it] 11%|█         | 560/5155 [1:23:01<11:13:53,  8.80s/it]                                                       {'loss': '0.003008', 'grad_norm': '0.6476', 'learning_rate': '0.0002', 'ppl': '1.003', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '142.1', 'tokens/total': 9175040, 'tokens/trainable': 2911399, 'epoch': '0.543'}
+ 11%|█         | 560/5155 [1:23:01<11:13:53,  8.80s/it] 11%|█         | 561/5155 [1:23:11<11:21:12,  8.90s/it] 11%|█         | 562/5155 [1:23:19<11:18:07,  8.86s/it] 11%|█         | 563/5155 [1:23:28<11:15:54,  8.83s/it] 11%|█         | 564/5155 [1:23:37<11:14:12,  8.81s/it] 11%|█         | 565/5155 [1:23:46<11:13:00,  8.80s/it] 11%|█         | 566/5155 [1:23:55<11:20:13,  8.89s/it] 11%|█         | 567/5155 [1:24:03<11:16:52,  8.85s/it] 11%|█         | 568/5155 [1:24:12<11:14:38,  8.82s/it] 11%|█         | 569/5155 [1:24:21<11:12:50,  8.80s/it] 11%|█         | 570/5155 [1:24:30<11:20:02,  8.90s/it]                                                       {'loss': '0.01372', 'grad_norm': '0.1852', 'learning_rate': '0.0001999', 'ppl': '1.014', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '138.5', 'tokens/total': 9338880, 'tokens/trainable': 2962403, 'epoch': '0.5527'}
+ 11%|█         | 570/5155 [1:24:30<11:20:02,  8.90s/it] 11%|█         | 571/5155 [1:24:39<11:16:40,  8.86s/it] 11%|█         | 572/5155 [1:24:48<11:14:20,  8.83s/it] 11%|█         | 573/5155 [1:24:56<11:12:30,  8.81s/it] 11%|█         | 574/5155 [1:25:05<11:11:04,  8.79s/it] 11%|█         | 575/5155 [1:25:14<11:18:32,  8.89s/it] 11%|█         | 576/5155 [1:25:23<11:15:23,  8.85s/it] 11%|█         | 577/5155 [1:25:32<11:13:08,  8.82s/it] 11%|█         | 578/5155 [1:25:41<11:11:32,  8.80s/it] 11%|█         | 579/5155 [1:25:50<11:18:26,  8.90s/it] 11%|█▏        | 580/5155 [1:25:58<11:14:58,  8.85s/it]                                                       {'loss': '0.009026', 'grad_norm': '0.2402', 'learning_rate': '0.0001999', 'ppl': '1.009', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '143.8', 'tokens/total': 9502720, 'tokens/trainable': 3015083, 'epoch': '0.5624'}
+ 11%|█▏        | 580/5155 [1:25:58<11:14:58,  8.85s/it] 11%|█▏        | 581/5155 [1:26:07<11:12:23,  8.82s/it] 11%|█▏        | 582/5155 [1:26:16<11:10:57,  8.80s/it] 11%|█▏        | 583/5155 [1:26:25<11:09:29,  8.79s/it] 11%|█▏        | 584/5155 [1:26:34<11:16:58,  8.89s/it] 11%|█▏        | 585/5155 [1:26:43<11:14:00,  8.85s/it] 11%|█▏        | 586/5155 [1:26:51<11:11:33,  8.82s/it] 11%|█▏        | 587/5155 [1:27:00<11:10:02,  8.80s/it] 11%|█▏        | 588/5155 [1:27:09<11:17:08,  8.90s/it] 11%|█▏        | 589/5155 [1:27:18<11:13:35,  8.85s/it] 11%|█▏        | 590/5155 [1:27:27<11:11:03,  8.82s/it]                                                       {'loss': '0.005716', 'grad_norm': '0.08093', 'learning_rate': '0.0001999', 'ppl': '1.006', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '163.8', 'tokens/total': 9666560, 'tokens/trainable': 3066501, 'epoch': '0.5721'}
+ 11%|█▏        | 590/5155 [1:27:27<11:11:03,  8.82s/it] 11%|█▏        | 591/5155 [1:27:35<11:09:23,  8.80s/it] 11%|█▏        | 592/5155 [1:27:44<11:07:54,  8.78s/it] 12%|█▏        | 593/5155 [1:27:53<11:15:44,  8.89s/it] 12%|█▏        | 594/5155 [1:28:02<11:12:40,  8.85s/it] 12%|█▏        | 595/5155 [1:28:11<11:10:14,  8.82s/it] 12%|█▏        | 596/5155 [1:28:20<11:08:28,  8.80s/it] 12%|█▏        | 597/5155 [1:28:29<11:15:44,  8.90s/it] 12%|█▏        | 598/5155 [1:28:37<11:12:20,  8.85s/it] 12%|█▏        | 599/5155 [1:28:46<11:09:51,  8.82s/it] 12%|█▏        | 600/5155 [1:28:55<11:08:04,  8.80s/it]                                                       {'loss': '0.0485', 'grad_norm': '3.419', 'learning_rate': '0.0001998', 'ppl': '1.05', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '142.3', 'tokens/total': 9830400, 'tokens/trainable': 3118633, 'epoch': '0.5818'}
+ 12%|█▏        | 600/5155 [1:28:55<11:08:04,  8.80s/it] 12%|█▏        | 601/5155 [1:29:04<11:06:46,  8.78s/it] 12%|█▏        | 602/5155 [1:29:13<11:14:09,  8.88s/it] 12%|█▏        | 603/5155 [1:29:22<11:10:58,  8.84s/it] 12%|█▏        | 604/5155 [1:29:30<11:08:31,  8.81s/it] 12%|█▏        | 605/5155 [1:29:39<11:06:53,  8.79s/it] 12%|█▏        | 606/5155 [1:29:48<11:14:03,  8.89s/it] 12%|█▏        | 607/5155 [1:29:57<11:10:33,  8.85s/it] 12%|█▏        | 608/5155 [1:30:06<11:08:21,  8.82s/it] 12%|█▏        | 609/5155 [1:30:14<11:06:31,  8.80s/it] 12%|█▏        | 610/5155 [1:30:24<11:13:33,  8.89s/it]                                                       {'loss': '0.03429', 'grad_norm': '0.2194', 'learning_rate': '0.0001998', 'ppl': '1.035', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '131.4', 'tokens/total': 9994240, 'tokens/trainable': 3170577, 'epoch': '0.5915'}
+ 12%|█▏        | 610/5155 [1:30:24<11:13:33,  8.89s/it] 12%|█▏        | 611/5155 [1:30:32<11:10:04,  8.85s/it] 12%|█▏        | 612/5155 [1:30:41<11:07:32,  8.82s/it] 12%|█▏        | 613/5155 [1:30:50<11:05:46,  8.79s/it] 12%|█▏        | 614/5155 [1:30:58<11:04:39,  8.78s/it] 12%|█▏        | 615/5155 [1:31:08<11:12:04,  8.88s/it] 12%|█▏        | 616/5155 [1:31:16<11:08:46,  8.84s/it] 12%|█▏        | 617/5155 [1:31:25<11:06:45,  8.82s/it] 12%|█▏        | 618/5155 [1:31:34<11:05:05,  8.80s/it] 12%|█▏        | 619/5155 [1:31:43<11:12:25,  8.89s/it] 12%|█▏        | 620/5155 [1:31:52<11:08:47,  8.85s/it]                                                       {'loss': '0.001517', 'grad_norm': '0.02293', 'learning_rate': '0.0001998', 'ppl': '1.002', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '142.4', 'tokens/total': 10158080, 'tokens/trainable': 3221696, 'epoch': '0.6012'}
+ 12%|█▏        | 620/5155 [1:31:52<11:08:47,  8.85s/it] 12%|█▏        | 621/5155 [1:32:00<11:06:22,  8.82s/it] 12%|█▏        | 622/5155 [1:32:09<11:04:33,  8.80s/it] 12%|█▏        | 623/5155 [1:32:18<11:03:15,  8.78s/it] 12%|█▏        | 624/5155 [1:32:27<11:10:24,  8.88s/it] 12%|█▏        | 625/5155 [1:32:36<11:07:10,  8.84s/it] 12%|█▏        | 626/5155 [1:32:45<11:04:55,  8.81s/it] 12%|█▏        | 627/5155 [1:32:53<11:03:41,  8.79s/it] 12%|█▏        | 628/5155 [1:33:02<11:10:59,  8.89s/it] 12%|█▏        | 629/5155 [1:33:11<11:07:26,  8.85s/it] 12%|█▏        | 630/5155 [1:33:20<11:04:54,  8.82s/it]                                                       {'loss': '0.002538', 'grad_norm': '0.1008', 'learning_rate': '0.0001997', 'ppl': '1.003', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '147', 'tokens/total': 10321920, 'tokens/trainable': 3273775, 'epoch': '0.6109'}
+ 12%|█▏        | 630/5155 [1:33:20<11:04:54,  8.82s/it] 12%|█▏        | 631/5155 [1:33:29<11:03:05,  8.79s/it] 12%|█▏        | 632/5155 [1:33:37<11:01:53,  8.78s/it] 12%|█▏        | 633/5155 [1:33:47<11:09:20,  8.88s/it] 12%|█▏        | 634/5155 [1:33:55<11:06:18,  8.84s/it] 12%|█▏        | 635/5155 [1:34:04<11:04:11,  8.82s/it] 12%|█▏        | 636/5155 [1:34:13<11:02:48,  8.80s/it] 12%|█▏        | 637/5155 [1:34:22<11:09:49,  8.90s/it] 12%|█▏        | 638/5155 [1:34:31<11:06:18,  8.85s/it] 12%|█▏        | 639/5155 [1:34:39<11:03:48,  8.82s/it] 12%|█▏        | 640/5155 [1:34:48<11:02:19,  8.80s/it]                                                       {'loss': '0.002282', 'grad_norm': '0.01761', 'learning_rate': '0.0001996', 'ppl': '1.002', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '148.9', 'tokens/total': 10485760, 'tokens/trainable': 3325516, 'epoch': '0.6206'}
+ 12%|█▏        | 640/5155 [1:34:48<11:02:19,  8.80s/it] 12%|█▏        | 641/5155 [1:34:57<11:01:36,  8.79s/it] 12%|█▏        | 642/5155 [1:35:06<11:08:44,  8.89s/it] 12%|█▏        | 643/5155 [1:35:15<11:05:36,  8.85s/it] 12%|█▏        | 644/5155 [1:35:24<11:03:36,  8.83s/it] 13%|█▎        | 645/5155 [1:35:32<11:01:44,  8.80s/it] 13%|█▎        | 646/5155 [1:35:41<11:08:53,  8.90s/it] 13%|█▎        | 647/5155 [1:35:50<11:05:31,  8.86s/it] 13%|█▎        | 648/5155 [1:35:59<11:03:05,  8.83s/it] 13%|█▎        | 649/5155 [1:36:08<11:01:05,  8.80s/it] 13%|█▎        | 650/5155 [1:36:16<10:59:35,  8.78s/it]                                                       {'loss': '0.0009477', 'grad_norm': '0.00451', 'learning_rate': '0.0001996', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '164.6', 'tokens/total': 10649600, 'tokens/trainable': 3377214, 'epoch': '0.6303'}
+ 13%|█▎        | 650/5155 [1:36:16<10:59:35,  8.78s/it] 13%|█▎        | 651/5155 [1:36:26<11:07:07,  8.89s/it] 13%|█▎        | 652/5155 [1:36:34<11:03:58,  8.85s/it] 13%|█▎        | 653/5155 [1:36:43<11:01:50,  8.82s/it] 13%|█▎        | 654/5155 [1:36:52<11:00:23,  8.80s/it] 13%|█▎        | 655/5155 [1:37:01<11:07:07,  8.90s/it] 13%|█▎        | 656/5155 [1:37:10<11:03:39,  8.85s/it] 13%|█▎        | 657/5155 [1:37:18<11:01:03,  8.82s/it] 13%|█▎        | 658/5155 [1:37:27<10:59:17,  8.80s/it] 13%|█▎        | 659/5155 [1:37:36<10:58:15,  8.78s/it] 13%|█▎        | 660/5155 [1:37:45<11:05:25,  8.88s/it]                                                       {'loss': '0.000566', 'grad_norm': '0.05332', 'learning_rate': '0.0001995', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '145.2', 'tokens/total': 10813440, 'tokens/trainable': 3428627, 'epoch': '0.64'}
+ 13%|█▎        | 660/5155 [1:37:45<11:05:25,  8.88s/it] 13%|█▎        | 661/5155 [1:37:54<11:02:09,  8.84s/it] 13%|█▎        | 662/5155 [1:38:03<10:59:46,  8.81s/it] 13%|█▎        | 663/5155 [1:38:11<10:58:10,  8.79s/it] 13%|█▎        | 664/5155 [1:38:20<11:05:24,  8.89s/it] 13%|█▎        | 665/5155 [1:38:29<11:01:53,  8.84s/it] 13%|█▎        | 666/5155 [1:38:38<10:59:25,  8.81s/it] 13%|█▎        | 667/5155 [1:38:47<10:57:42,  8.79s/it] 13%|█▎        | 668/5155 [1:38:55<10:56:31,  8.78s/it] 13%|█▎        | 669/5155 [1:39:05<11:03:36,  8.88s/it] 13%|█▎        | 670/5155 [1:39:13<11:00:24,  8.83s/it]                                                       {'loss': '0.0008977', 'grad_norm': '0.03862', 'learning_rate': '0.0001995', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '156.6', 'tokens/total': 10977280, 'tokens/trainable': 3480170, 'epoch': '0.6497'}
+ 13%|█▎        | 670/5155 [1:39:13<11:00:24,  8.83s/it] 13%|█▎        | 671/5155 [1:39:22<10:58:20,  8.81s/it] 13%|█▎        | 672/5155 [1:39:31<10:56:34,  8.79s/it] 13%|█▎        | 673/5155 [1:39:40<11:03:39,  8.88s/it] 13%|█▎        | 674/5155 [1:39:49<11:00:21,  8.84s/it] 13%|█▎        | 675/5155 [1:39:57<10:57:51,  8.81s/it] 13%|█▎        | 676/5155 [1:40:06<10:56:06,  8.79s/it] 13%|█▎        | 677/5155 [1:40:15<10:54:47,  8.77s/it] 13%|█▎        | 678/5155 [1:40:24<11:01:39,  8.87s/it] 13%|█▎        | 679/5155 [1:40:33<10:58:48,  8.83s/it] 13%|█▎        | 680/5155 [1:40:41<10:56:53,  8.81s/it]                                                       {'loss': '0.0009613', 'grad_norm': '0.02112', 'learning_rate': '0.0001994', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '151.5', 'tokens/total': 11141120, 'tokens/trainable': 3532037, 'epoch': '0.6594'}
+ 13%|█▎        | 680/5155 [1:40:41<10:56:53,  8.81s/it] 13%|█▎        | 681/5155 [1:40:50<10:55:14,  8.79s/it] 13%|█▎        | 682/5155 [1:40:59<11:02:50,  8.89s/it] 13%|█▎        | 683/5155 [1:41:08<10:59:59,  8.86s/it] 13%|█▎        | 684/5155 [1:41:17<10:58:04,  8.83s/it] 13%|█▎        | 685/5155 [1:41:26<10:56:13,  8.81s/it] 13%|█▎        | 686/5155 [1:41:34<10:54:44,  8.79s/it] 13%|█▎        | 687/5155 [1:41:43<11:02:00,  8.89s/it] 13%|█▎        | 688/5155 [1:41:52<10:58:33,  8.85s/it] 13%|█▎        | 689/5155 [1:42:01<10:56:14,  8.82s/it] 13%|█▎        | 690/5155 [1:42:10<10:54:26,  8.79s/it]                                                       {'loss': '0.001022', 'grad_norm': '0.02421', 'learning_rate': '0.0001993', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '141.6', 'tokens/total': 11304960, 'tokens/trainable': 3583461, 'epoch': '0.6691'}
+ 13%|█▎        | 690/5155 [1:42:10<10:54:26,  8.79s/it] 13%|█▎        | 691/5155 [1:42:19<11:01:23,  8.89s/it] 13%|█▎        | 692/5155 [1:42:28<10:57:47,  8.84s/it] 13%|█▎        | 693/5155 [1:42:36<10:55:33,  8.82s/it] 13%|█▎        | 694/5155 [1:42:45<10:53:52,  8.79s/it] 13%|█▎        | 695/5155 [1:42:54<10:52:34,  8.78s/it] 14%|█▎        | 696/5155 [1:43:03<10:59:30,  8.87s/it] 14%|█▎        | 697/5155 [1:43:12<10:56:16,  8.83s/it] 14%|█▎        | 698/5155 [1:43:20<10:54:20,  8.81s/it] 14%|█▎        | 699/5155 [1:43:29<10:53:08,  8.79s/it] 14%|█▎        | 700/5155 [1:43:38<11:00:10,  8.89s/it]                                                       {'loss': '0.0007618', 'grad_norm': '0.05009', 'learning_rate': '0.0001992', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '140.8', 'tokens/total': 11468800, 'tokens/trainable': 3634649, 'epoch': '0.6788'}
+ 14%|█▎        | 700/5155 [1:43:38<11:00:10,  8.89s/it] 14%|█▎        | 701/5155 [1:43:47<10:56:57,  8.85s/it] 14%|█▎        | 702/5155 [1:43:56<10:54:25,  8.82s/it] 14%|█▎        | 703/5155 [1:44:04<10:52:51,  8.80s/it] 14%|█▎        | 704/5155 [1:44:13<10:51:42,  8.79s/it] 14%|█▎        | 705/5155 [1:44:22<10:58:55,  8.88s/it] 14%|█▎        | 706/5155 [1:44:31<10:55:40,  8.84s/it] 14%|█▎        | 707/5155 [1:44:40<10:53:21,  8.81s/it] 14%|█▎        | 708/5155 [1:44:49<10:51:29,  8.79s/it] 14%|█▍        | 709/5155 [1:44:58<10:58:42,  8.89s/it] 14%|█▍        | 710/5155 [1:45:06<10:55:40,  8.85s/it]                                                       {'loss': '0.001235', 'grad_norm': '0.03573', 'learning_rate': '0.0001991', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '144.5', 'tokens/total': 11632640, 'tokens/trainable': 3685786, 'epoch': '0.6885'}
+ 14%|█▍        | 710/5155 [1:45:06<10:55:40,  8.85s/it] 14%|█▍        | 711/5155 [1:45:15<10:53:03,  8.82s/it] 14%|█▍        | 712/5155 [1:45:24<10:51:28,  8.80s/it] 14%|█▍        | 713/5155 [1:45:33<10:58:40,  8.90s/it] 14%|█▍        | 714/5155 [1:45:42<10:55:19,  8.85s/it] 14%|█▍        | 715/5155 [1:45:51<10:53:01,  8.82s/it] 14%|█▍        | 716/5155 [1:45:59<10:51:10,  8.80s/it] 14%|█▍        | 717/5155 [1:46:08<10:49:46,  8.78s/it] 14%|█▍        | 718/5155 [1:46:17<10:56:57,  8.88s/it] 14%|█▍        | 719/5155 [1:46:26<10:53:24,  8.84s/it] 14%|█▍        | 720/5155 [1:46:35<10:51:09,  8.81s/it]                                                       {'loss': '0.0008166', 'grad_norm': '0.01095', 'learning_rate': '0.000199', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '157.7', 'tokens/total': 11796480, 'tokens/trainable': 3737566, 'epoch': '0.6982'}
+ 14%|█▍        | 720/5155 [1:46:35<10:51:09,  8.81s/it] 14%|█▍        | 721/5155 [1:46:43<10:49:32,  8.79s/it] 14%|█▍        | 722/5155 [1:46:53<10:56:55,  8.89s/it] 14%|█▍        | 723/5155 [1:47:01<10:53:48,  8.85s/it] 14%|█▍        | 724/5155 [1:47:10<10:51:39,  8.82s/it] 14%|█▍        | 725/5155 [1:47:19<10:49:51,  8.80s/it] 14%|█▍        | 726/5155 [1:47:28<10:48:29,  8.79s/it] 14%|█▍        | 727/5155 [1:47:37<10:55:28,  8.88s/it] 14%|█▍        | 728/5155 [1:47:45<10:52:16,  8.84s/it] 14%|█▍        | 729/5155 [1:47:54<10:49:59,  8.81s/it] 14%|█▍        | 730/5155 [1:48:03<10:48:27,  8.79s/it]                                                       {'loss': '0.001333', 'grad_norm': '0.03577', 'learning_rate': '0.000199', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '139.8', 'tokens/total': 11960320, 'tokens/trainable': 3789817, 'epoch': '0.7079'}
+ 14%|█▍        | 730/5155 [1:48:03<10:48:27,  8.79s/it] 14%|█▍        | 731/5155 [1:48:12<10:55:11,  8.89s/it] 14%|█▍        | 732/5155 [1:48:21<10:51:46,  8.84s/it] 14%|█▍        | 733/5155 [1:48:29<10:49:21,  8.81s/it] 14%|█▍        | 734/5155 [1:48:38<10:47:58,  8.79s/it] 14%|█▍        | 735/5155 [1:48:47<10:46:35,  8.78s/it] 14%|█▍        | 736/5155 [1:48:56<10:53:39,  8.88s/it] 14%|█▍        | 737/5155 [1:49:05<10:50:40,  8.84s/it] 14%|█▍        | 738/5155 [1:49:14<10:48:50,  8.81s/it] 14%|█▍        | 739/5155 [1:49:22<10:47:20,  8.80s/it] 14%|█▍        | 740/5155 [1:49:31<10:54:26,  8.89s/it]                                                       {'loss': '0.001118', 'grad_norm': '0.03971', 'learning_rate': '0.0001989', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '146.7', 'tokens/total': 12124160, 'tokens/trainable': 3841912, 'epoch': '0.7176'}
+ 14%|█▍        | 740/5155 [1:49:31<10:54:26,  8.89s/it] 14%|█▍        | 741/5155 [1:49:40<10:51:22,  8.85s/it] 14%|█▍        | 742/5155 [1:49:49<10:48:52,  8.82s/it] 14%|█▍        | 743/5155 [1:49:58<10:47:20,  8.80s/it] 14%|█▍        | 744/5155 [1:50:06<10:46:01,  8.79s/it] 14%|█▍        | 745/5155 [1:50:16<10:52:55,  8.88s/it] 14%|█▍        | 746/5155 [1:50:24<10:49:54,  8.84s/it] 14%|█▍        | 747/5155 [1:50:33<10:47:40,  8.82s/it] 15%|█▍        | 748/5155 [1:50:42<10:46:04,  8.80s/it] 15%|█▍        | 749/5155 [1:50:51<10:52:51,  8.89s/it] 15%|█▍        | 750/5155 [1:51:00<10:49:09,  8.84s/it]                                                       {'loss': '0.001245', 'grad_norm': '0.06547', 'learning_rate': '0.0001987', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '145.8', 'tokens/total': 12288000, 'tokens/trainable': 3893725, 'epoch': '0.7273'}
+ 15%|█▍        | 750/5155 [1:51:00<10:49:09,  8.84s/it] 15%|█▍        | 751/5155 [1:51:08<10:46:52,  8.81s/it] 15%|█▍        | 752/5155 [1:51:17<10:45:38,  8.80s/it] 15%|█▍        | 753/5155 [1:51:26<10:52:34,  8.89s/it] 15%|█▍        | 754/5155 [1:51:35<10:48:53,  8.85s/it] 15%|█▍        | 755/5155 [1:51:44<10:46:22,  8.81s/it] 15%|█▍        | 756/5155 [1:51:52<10:44:23,  8.79s/it] 15%|█▍        | 757/5155 [1:52:01<10:43:14,  8.78s/it] 15%|█▍        | 758/5155 [1:52:10<10:50:25,  8.88s/it] 15%|█▍        | 759/5155 [1:52:19<10:47:29,  8.84s/it] 15%|█▍        | 760/5155 [1:52:28<10:45:18,  8.81s/it]                                                       {'loss': '0.0008146', 'grad_norm': '0.04706', 'learning_rate': '0.0001986', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '134.9', 'tokens/total': 12451840, 'tokens/trainable': 3945033, 'epoch': '0.737'}
+ 15%|█▍        | 760/5155 [1:52:28<10:45:18,  8.81s/it] 15%|█▍        | 761/5155 [1:52:37<10:43:49,  8.79s/it] 15%|█▍        | 762/5155 [1:52:46<10:50:48,  8.89s/it] 15%|█▍        | 763/5155 [1:52:54<10:47:24,  8.84s/it] 15%|█▍        | 764/5155 [1:53:03<10:45:02,  8.81s/it] 15%|█▍        | 765/5155 [1:53:12<10:43:18,  8.79s/it] 15%|█▍        | 766/5155 [1:53:21<10:42:01,  8.78s/it] 15%|█▍        | 767/5155 [1:53:30<10:49:11,  8.88s/it] 15%|█▍        | 768/5155 [1:53:39<10:46:20,  8.84s/it] 15%|█▍        | 769/5155 [1:53:47<10:44:03,  8.81s/it] 15%|█▍        | 770/5155 [1:53:56<10:42:31,  8.79s/it]                                                       {'loss': '0.0008653', 'grad_norm': '0.02881', 'learning_rate': '0.0001985', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '151.2', 'tokens/total': 12615680, 'tokens/trainable': 3996749, 'epoch': '0.7467'}
+ 15%|█▍        | 770/5155 [1:53:56<10:42:31,  8.79s/it] 15%|█▍        | 771/5155 [1:54:05<10:49:42,  8.89s/it] 15%|█▍        | 772/5155 [1:54:14<10:46:30,  8.85s/it] 15%|█▍        | 773/5155 [1:54:23<10:43:57,  8.82s/it] 15%|█▌        | 774/5155 [1:54:31<10:42:29,  8.80s/it] 15%|█▌        | 775/5155 [1:54:40<10:41:15,  8.78s/it] 15%|█▌        | 776/5155 [1:54:49<10:47:50,  8.88s/it] 15%|█▌        | 777/5155 [1:54:58<10:44:37,  8.83s/it] 15%|█▌        | 778/5155 [1:55:07<10:42:40,  8.81s/it] 15%|█▌        | 779/5155 [1:55:15<10:41:12,  8.79s/it] 15%|█▌        | 780/5155 [1:55:25<10:47:48,  8.88s/it]                                                       {'loss': '0.0006707', 'grad_norm': '0.0122', 'learning_rate': '0.0001984', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '137.1', 'tokens/total': 12779520, 'tokens/trainable': 4048173, 'epoch': '0.7564'}
+ 15%|█▌        | 780/5155 [1:55:25<10:47:48,  8.88s/it] 15%|█▌        | 781/5155 [1:55:33<10:44:30,  8.84s/it] 15%|█▌        | 782/5155 [1:55:42<10:42:02,  8.81s/it] 15%|█▌        | 783/5155 [1:55:51<10:40:29,  8.79s/it] 15%|█▌        | 784/5155 [1:56:00<10:39:36,  8.78s/it] 15%|█▌        | 785/5155 [1:56:09<10:46:58,  8.88s/it] 15%|█▌        | 786/5155 [1:56:17<10:43:53,  8.84s/it] 15%|█▌        | 787/5155 [1:56:26<10:41:24,  8.81s/it] 15%|█▌        | 788/5155 [1:56:35<10:39:42,  8.79s/it] 15%|█▌        | 789/5155 [1:56:44<10:46:40,  8.89s/it] 15%|█▌        | 790/5155 [1:56:53<10:43:17,  8.84s/it]                                                       {'loss': '0.0004635', 'grad_norm': '0.01622', 'learning_rate': '0.0001983', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '151', 'tokens/total': 12943360, 'tokens/trainable': 4099789, 'epoch': '0.7661'}
+ 15%|█▌        | 790/5155 [1:56:53<10:43:17,  8.84s/it] 15%|█▌        | 791/5155 [1:57:01<10:40:56,  8.81s/it] 15%|█▌        | 792/5155 [1:57:10<10:39:19,  8.79s/it] 15%|█▌        | 793/5155 [1:57:19<10:38:11,  8.78s/it] 15%|█▌        | 794/5155 [1:57:28<10:44:56,  8.87s/it] 15%|█▌        | 795/5155 [1:57:37<10:41:49,  8.83s/it] 15%|█▌        | 796/5155 [1:57:46<10:39:37,  8.80s/it] 15%|█▌        | 797/5155 [1:57:54<10:38:02,  8.78s/it] 15%|█▌        | 798/5155 [1:58:03<10:44:55,  8.88s/it] 15%|█▌        | 799/5155 [1:58:12<10:41:54,  8.84s/it] 16%|█▌        | 800/5155 [1:58:21<10:39:53,  8.82s/it]                                                       {'loss': '0.0007073', 'grad_norm': '0.03467', 'learning_rate': '0.0001982', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '144.5', 'tokens/total': 13107200, 'tokens/trainable': 4150960, 'epoch': '0.7758'}
+ 16%|█▌        | 800/5155 [1:58:21<10:39:53,  8.82s/it] 16%|█▌        | 801/5155 [1:58:30<10:38:28,  8.80s/it] 16%|█▌        | 802/5155 [1:58:38<10:37:18,  8.78s/it] 16%|█▌        | 803/5155 [1:58:48<10:44:20,  8.88s/it] 16%|█▌        | 804/5155 [1:58:56<10:41:12,  8.84s/it] 16%|█▌        | 805/5155 [1:59:05<10:39:07,  8.82s/it] 16%|█▌        | 806/5155 [1:59:14<10:37:16,  8.79s/it] 16%|█▌        | 807/5155 [1:59:23<10:43:48,  8.88s/it] 16%|█▌        | 808/5155 [1:59:32<10:40:28,  8.84s/it] 16%|█▌        | 809/5155 [1:59:40<10:38:17,  8.81s/it] 16%|█▌        | 810/5155 [1:59:49<10:36:46,  8.79s/it]                                                       {'loss': '0.000219', 'grad_norm': '0.002213', 'learning_rate': '0.000198', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '147.5', 'tokens/total': 13271040, 'tokens/trainable': 4202984, 'epoch': '0.7855'}
+ 16%|█▌        | 810/5155 [1:59:49<10:36:46,  8.79s/it] 16%|█▌        | 811/5155 [1:59:58<10:43:30,  8.89s/it] 16%|█▌        | 812/5155 [2:00:07<10:40:11,  8.84s/it] 16%|█▌        | 813/5155 [2:00:16<10:37:58,  8.82s/it] 16%|█▌        | 814/5155 [2:00:24<10:36:15,  8.79s/it] 16%|█▌        | 815/5155 [2:00:33<10:35:14,  8.78s/it] 16%|█▌        | 816/5155 [2:00:42<10:42:16,  8.88s/it] 16%|█▌        | 817/5155 [2:00:51<10:39:25,  8.84s/it] 16%|█▌        | 818/5155 [2:01:00<10:37:25,  8.82s/it] 16%|█▌        | 819/5155 [2:01:09<10:36:03,  8.80s/it] 16%|█▌        | 820/5155 [2:01:18<10:43:44,  8.91s/it]                                                       {'loss': '0.0004326', 'grad_norm': '0.0009193', 'learning_rate': '0.0001979', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '140.6', 'tokens/total': 13434880, 'tokens/trainable': 4254907, 'epoch': '0.7952'}
+ 16%|█▌        | 820/5155 [2:01:18<10:43:44,  8.91s/it] 16%|█▌        | 821/5155 [2:01:27<10:40:18,  8.86s/it] 16%|█▌        | 822/5155 [2:01:35<10:37:47,  8.83s/it] 16%|█▌        | 823/5155 [2:01:44<10:35:54,  8.81s/it] 16%|█▌        | 824/5155 [2:01:53<10:34:15,  8.79s/it] 16%|█▌        | 825/5155 [2:02:02<10:40:59,  8.88s/it] 16%|█▌        | 826/5155 [2:02:11<10:37:49,  8.84s/it] 16%|█▌        | 827/5155 [2:02:19<10:35:37,  8.81s/it] 16%|█▌        | 828/5155 [2:02:28<10:34:13,  8.79s/it] 16%|█▌        | 829/5155 [2:02:37<10:41:31,  8.90s/it] 16%|█▌        | 830/5155 [2:02:46<10:38:28,  8.86s/it]                                                       {'loss': '0.0003196', 'grad_norm': '0.0077', 'learning_rate': '0.0001977', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '147.5', 'tokens/total': 13598720, 'tokens/trainable': 4306095, 'epoch': '0.8048'}
+ 16%|█▌        | 830/5155 [2:02:46<10:38:28,  8.86s/it] 16%|█▌        | 831/5155 [2:02:55<10:35:54,  8.82s/it] 16%|█▌        | 832/5155 [2:03:03<10:34:07,  8.80s/it] 16%|█▌        | 833/5155 [2:03:12<10:32:48,  8.78s/it] 16%|█▌        | 834/5155 [2:03:21<10:39:23,  8.88s/it] 16%|█▌        | 835/5155 [2:03:30<10:36:25,  8.84s/it] 16%|█▌        | 836/5155 [2:03:39<10:34:52,  8.82s/it] 16%|█▌        | 837/5155 [2:03:48<10:33:01,  8.80s/it] 16%|█▋        | 838/5155 [2:03:57<10:40:05,  8.90s/it] 16%|█▋        | 839/5155 [2:04:05<10:36:30,  8.85s/it] 16%|█▋        | 840/5155 [2:04:14<10:33:59,  8.82s/it]                                                       {'loss': '0.0004477', 'grad_norm': '0.01552', 'learning_rate': '0.0001976', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '141.4', 'tokens/total': 13762560, 'tokens/trainable': 4357442, 'epoch': '0.8145'}
+ 16%|█▋        | 840/5155 [2:04:14<10:33:59,  8.82s/it] 16%|█▋        | 841/5155 [2:04:23<10:32:12,  8.79s/it] 16%|█▋        | 842/5155 [2:04:32<10:31:06,  8.78s/it] 16%|█▋        | 843/5155 [2:04:41<10:39:23,  8.90s/it] 16%|█▋        | 844/5155 [2:04:50<10:36:59,  8.87s/it] 16%|█▋        | 845/5155 [2:04:58<10:34:28,  8.83s/it] 16%|█▋        | 846/5155 [2:05:07<10:33:12,  8.82s/it] 16%|█▋        | 847/5155 [2:05:16<10:40:20,  8.92s/it] 16%|█▋        | 848/5155 [2:05:25<10:36:48,  8.87s/it] 16%|█▋        | 849/5155 [2:05:34<10:34:41,  8.84s/it] 16%|█▋        | 850/5155 [2:05:43<10:33:06,  8.82s/it]                                                       {'loss': '0.0004673', 'grad_norm': '0.01346', 'learning_rate': '0.0001975', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '141', 'tokens/total': 13926400, 'tokens/trainable': 4409277, 'epoch': '0.8242'}
+ 16%|█▋        | 850/5155 [2:05:43<10:33:06,  8.82s/it] 17%|█▋        | 851/5155 [2:05:51<10:31:21,  8.80s/it] 17%|█▋        | 852/5155 [2:06:01<10:37:52,  8.89s/it] 17%|█▋        | 853/5155 [2:06:09<10:35:00,  8.86s/it] 17%|█▋        | 854/5155 [2:06:18<10:33:33,  8.84s/it] 17%|█▋        | 855/5155 [2:06:27<10:32:27,  8.82s/it] 17%|█▋        | 856/5155 [2:06:36<10:39:53,  8.93s/it] 17%|█▋        | 857/5155 [2:06:45<10:36:39,  8.89s/it] 17%|█▋        | 858/5155 [2:06:54<10:34:22,  8.86s/it] 17%|█▋        | 859/5155 [2:07:02<10:31:22,  8.82s/it] 17%|█▋        | 860/5155 [2:07:11<10:29:44,  8.80s/it]                                                       {'loss': '0.0003278', 'grad_norm': '0.001469', 'learning_rate': '0.0001973', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '142.8', 'tokens/total': 14090240, 'tokens/trainable': 4460714, 'epoch': '0.8339'}
+ 17%|█▋        | 860/5155 [2:07:11<10:29:44,  8.80s/it] 17%|█▋        | 861/5155 [2:07:20<10:36:16,  8.89s/it] 17%|█▋        | 862/5155 [2:07:29<10:32:57,  8.85s/it] 17%|█▋        | 863/5155 [2:07:38<10:30:24,  8.81s/it] 17%|█▋        | 864/5155 [2:07:46<10:28:45,  8.79s/it] 17%|█▋        | 865/5155 [2:07:56<10:35:06,  8.88s/it] 17%|█▋        | 866/5155 [2:08:04<10:31:50,  8.84s/it] 17%|█▋        | 867/5155 [2:08:13<10:29:15,  8.80s/it] 17%|█▋        | 868/5155 [2:08:22<10:27:23,  8.78s/it] 17%|█▋        | 869/5155 [2:08:30<10:26:12,  8.77s/it] 17%|█▋        | 870/5155 [2:08:40<10:32:47,  8.86s/it]                                                       {'loss': '0.0003247', 'grad_norm': '0.001358', 'learning_rate': '0.0001971', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '138.5', 'tokens/total': 14254080, 'tokens/trainable': 4511989, 'epoch': '0.8436'}
+ 17%|█▋        | 870/5155 [2:08:40<10:32:47,  8.86s/it] 17%|█▋        | 871/5155 [2:08:48<10:29:56,  8.82s/it] 17%|█▋        | 872/5155 [2:08:57<10:27:34,  8.79s/it] 17%|█▋        | 873/5155 [2:09:06<10:25:55,  8.77s/it] 17%|█▋        | 874/5155 [2:09:15<10:32:23,  8.86s/it] 17%|█▋        | 875/5155 [2:09:24<10:29:18,  8.82s/it] 17%|█▋        | 876/5155 [2:09:32<10:27:38,  8.80s/it] 17%|█▋        | 877/5155 [2:09:41<10:27:28,  8.80s/it] 17%|█▋        | 878/5155 [2:09:50<10:26:41,  8.79s/it] 17%|█▋        | 879/5155 [2:09:59<10:33:18,  8.89s/it] 17%|█▋        | 880/5155 [2:10:08<10:30:00,  8.84s/it]                                                       {'loss': '0.0002318', 'grad_norm': '0.04511', 'learning_rate': '0.000197', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '154.1', 'tokens/total': 14417920, 'tokens/trainable': 4563354, 'epoch': '0.8533'}
+ 17%|█▋        | 880/5155 [2:10:08<10:30:00,  8.84s/it] 17%|█▋        | 881/5155 [2:10:16<10:27:50,  8.81s/it] 17%|█▋        | 882/5155 [2:10:25<10:26:53,  8.80s/it] 17%|█▋        | 883/5155 [2:10:34<10:34:35,  8.91s/it] 17%|█▋        | 884/5155 [2:10:43<10:31:52,  8.88s/it] 17%|█▋        | 885/5155 [2:10:52<10:29:35,  8.85s/it] 17%|█▋        | 886/5155 [2:11:01<10:28:02,  8.83s/it] 17%|█▋        | 887/5155 [2:11:09<10:26:20,  8.81s/it] 17%|█▋        | 888/5155 [2:11:19<10:33:07,  8.90s/it] 17%|█▋        | 889/5155 [2:11:27<10:29:48,  8.86s/it] 17%|█▋        | 890/5155 [2:11:36<10:27:22,  8.83s/it]                                                       {'loss': '0.0002614', 'grad_norm': '0.1451', 'learning_rate': '0.0001968', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '138.5', 'tokens/total': 14581760, 'tokens/trainable': 4615691, 'epoch': '0.863'}
+ 17%|█▋        | 890/5155 [2:11:36<10:27:22,  8.83s/it] 17%|█▋        | 891/5155 [2:11:45<10:25:54,  8.81s/it] 17%|█▋        | 892/5155 [2:11:54<10:32:21,  8.90s/it] 17%|█▋        | 893/5155 [2:12:03<10:29:17,  8.86s/it] 17%|█▋        | 894/5155 [2:12:12<10:26:57,  8.83s/it] 17%|█▋        | 895/5155 [2:12:20<10:25:20,  8.81s/it] 17%|█▋        | 896/5155 [2:12:29<10:24:05,  8.79s/it] 17%|█▋        | 897/5155 [2:12:38<10:30:57,  8.89s/it] 17%|█▋        | 898/5155 [2:12:47<10:27:47,  8.85s/it] 17%|█▋        | 899/5155 [2:12:56<10:25:32,  8.82s/it] 17%|█▋        | 900/5155 [2:13:04<10:24:10,  8.80s/it]                                                       {'loss': '0.0001604', 'grad_norm': '0.01097', 'learning_rate': '0.0001966', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '157.6', 'tokens/total': 14745600, 'tokens/trainable': 4667433, 'epoch': '0.8727'}
+ 17%|█▋        | 900/5155 [2:13:04<10:24:10,  8.80s/it] 17%|█▋        | 901/5155 [2:13:14<10:30:57,  8.90s/it] 17%|█▋        | 902/5155 [2:13:22<10:27:58,  8.86s/it] 18%|█▊        | 903/5155 [2:13:31<10:25:43,  8.83s/it] 18%|█▊        | 904/5155 [2:13:40<10:23:46,  8.80s/it] 18%|█▊        | 905/5155 [2:13:49<10:22:32,  8.79s/it] 18%|█▊        | 906/5155 [2:13:58<10:29:45,  8.89s/it] 18%|█▊        | 907/5155 [2:14:06<10:26:47,  8.85s/it] 18%|█▊        | 908/5155 [2:14:15<10:24:20,  8.82s/it] 18%|█▊        | 909/5155 [2:14:24<10:22:40,  8.80s/it] 18%|█▊        | 910/5155 [2:14:33<10:29:07,  8.89s/it]                                                       {'loss': '0.000416', 'grad_norm': '0.03874', 'learning_rate': '0.0001965', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '160.1', 'tokens/total': 14909440, 'tokens/trainable': 4719807, 'epoch': '0.8824'}
+ 18%|█▊        | 910/5155 [2:14:33<10:29:07,  8.89s/it] 18%|█▊        | 911/5155 [2:14:42<10:26:00,  8.85s/it] 18%|█▊        | 912/5155 [2:14:51<10:23:45,  8.82s/it] 18%|█▊        | 913/5155 [2:14:59<10:22:02,  8.80s/it] 18%|█▊        | 914/5155 [2:15:08<10:20:51,  8.78s/it] 18%|█▊        | 915/5155 [2:15:17<10:27:31,  8.88s/it] 18%|█▊        | 916/5155 [2:15:26<10:24:49,  8.84s/it] 18%|█▊        | 917/5155 [2:15:35<10:22:49,  8.82s/it] 18%|█▊        | 918/5155 [2:15:43<10:21:04,  8.79s/it] 18%|█▊        | 919/5155 [2:15:53<10:27:48,  8.89s/it] 18%|█▊        | 920/5155 [2:16:01<10:24:43,  8.85s/it]                                                       {'loss': '0.000674', 'grad_norm': '0.04462', 'learning_rate': '0.0001963', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '150.5', 'tokens/total': 15073280, 'tokens/trainable': 4771772, 'epoch': '0.8921'}
+ 18%|█▊        | 920/5155 [2:16:01<10:24:43,  8.85s/it] 18%|█▊        | 921/5155 [2:16:10<10:22:35,  8.82s/it] 18%|█▊        | 922/5155 [2:16:19<10:21:25,  8.81s/it] 18%|█▊        | 923/5155 [2:16:28<10:20:42,  8.80s/it] 18%|█▊        | 924/5155 [2:16:37<10:27:43,  8.90s/it] 18%|█▊        | 925/5155 [2:16:46<10:24:21,  8.86s/it] 18%|█▊        | 926/5155 [2:16:54<10:22:05,  8.83s/it] 18%|█▊        | 927/5155 [2:17:03<10:21:08,  8.81s/it] 18%|█▊        | 928/5155 [2:17:12<10:28:41,  8.92s/it] 18%|█▊        | 929/5155 [2:17:21<10:26:13,  8.89s/it] 18%|█▊        | 930/5155 [2:17:30<10:24:28,  8.87s/it]                                                       {'loss': '0.0003935', 'grad_norm': '0.02486', 'learning_rate': '0.0001961', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '151.6', 'tokens/total': 15237120, 'tokens/trainable': 4823415, 'epoch': '0.9018'}
+ 18%|█▊        | 930/5155 [2:17:30<10:24:28,  8.87s/it] 18%|█▊        | 931/5155 [2:17:39<10:22:24,  8.84s/it] 18%|█▊        | 932/5155 [2:17:47<10:20:41,  8.82s/it] 18%|█▊        | 933/5155 [2:17:57<10:27:45,  8.92s/it] 18%|█▊        | 934/5155 [2:18:05<10:24:06,  8.87s/it] 18%|█▊        | 935/5155 [2:18:14<10:21:43,  8.84s/it] 18%|█▊        | 936/5155 [2:18:23<10:20:15,  8.82s/it] 18%|█▊        | 937/5155 [2:18:32<10:27:29,  8.93s/it] 18%|█▊        | 938/5155 [2:18:41<10:23:51,  8.88s/it] 18%|█▊        | 939/5155 [2:18:50<10:21:09,  8.84s/it] 18%|█▊        | 940/5155 [2:18:58<10:19:41,  8.82s/it]                                                       {'loss': '0.0005908', 'grad_norm': '0.0222', 'learning_rate': '0.0001959', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '153.6', 'tokens/total': 15400960, 'tokens/trainable': 4875269, 'epoch': '0.9115'}
+ 18%|█▊        | 940/5155 [2:18:58<10:19:41,  8.82s/it] 18%|█▊        | 941/5155 [2:19:08<10:27:13,  8.93s/it] 18%|█▊        | 942/5155 [2:19:16<10:23:42,  8.88s/it] 18%|█▊        | 943/5155 [2:19:25<10:21:54,  8.86s/it] 18%|█▊        | 944/5155 [2:19:34<10:20:26,  8.84s/it] 18%|█▊        | 945/5155 [2:19:43<10:19:04,  8.82s/it] 18%|█▊        | 946/5155 [2:19:52<10:25:42,  8.92s/it] 18%|█▊        | 947/5155 [2:20:01<10:23:24,  8.89s/it] 18%|█▊        | 948/5155 [2:20:09<10:21:11,  8.86s/it] 18%|█▊        | 949/5155 [2:20:18<10:19:35,  8.84s/it] 18%|█▊        | 950/5155 [2:20:27<10:26:37,  8.94s/it]                                                       {'loss': '0.0002732', 'grad_norm': '0.0167', 'learning_rate': '0.0001957', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '151.1', 'tokens/total': 15564800, 'tokens/trainable': 4927244, 'epoch': '0.9212'}
+ 18%|█▊        | 950/5155 [2:20:27<10:26:37,  8.94s/it] 18%|█▊        | 951/5155 [2:20:36<10:24:00,  8.91s/it] 18%|█▊        | 952/5155 [2:20:45<10:20:54,  8.86s/it] 18%|█▊        | 953/5155 [2:20:54<10:19:22,  8.84s/it] 19%|█▊        | 954/5155 [2:21:03<10:18:04,  8.83s/it] 19%|█▊        | 955/5155 [2:21:12<10:24:50,  8.93s/it] 19%|█▊        | 956/5155 [2:21:20<10:21:25,  8.88s/it] 19%|█▊        | 957/5155 [2:21:29<10:18:57,  8.85s/it] 19%|█▊        | 958/5155 [2:21:38<10:17:10,  8.82s/it] 19%|█▊        | 959/5155 [2:21:47<10:24:38,  8.93s/it] 19%|█▊        | 960/5155 [2:21:56<10:21:36,  8.89s/it]                                                       {'loss': '0.0004321', 'grad_norm': '0.02139', 'learning_rate': '0.0001955', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '141.6', 'tokens/total': 15728640, 'tokens/trainable': 4979068, 'epoch': '0.9309'}
+ 19%|█▊        | 960/5155 [2:21:56<10:21:36,  8.89s/it] 19%|█▊        | 961/5155 [2:22:05<10:19:46,  8.87s/it] 19%|█▊        | 962/5155 [2:22:14<10:17:50,  8.84s/it] 19%|█▊        | 963/5155 [2:22:22<10:16:13,  8.82s/it] 19%|█▊        | 964/5155 [2:22:32<10:23:02,  8.92s/it] 19%|█▊        | 965/5155 [2:22:40<10:20:39,  8.89s/it] 19%|█▊        | 966/5155 [2:22:49<10:18:04,  8.85s/it] 19%|█▉        | 967/5155 [2:22:58<10:15:51,  8.82s/it] 19%|█▉        | 968/5155 [2:23:07<10:21:26,  8.91s/it] 19%|█▉        | 969/5155 [2:23:16<10:17:52,  8.86s/it] 19%|█▉        | 970/5155 [2:23:24<10:15:59,  8.83s/it]                                                       {'loss': '0.0005638', 'grad_norm': '0.02814', 'learning_rate': '0.0001953', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '142.6', 'tokens/total': 15892480, 'tokens/trainable': 5030980, 'epoch': '0.9406'}
+ 19%|█▉        | 970/5155 [2:23:24<10:15:59,  8.83s/it] 19%|█▉        | 971/5155 [2:23:33<10:14:46,  8.82s/it] 19%|█▉        | 972/5155 [2:23:42<10:20:20,  8.90s/it] 19%|█▉        | 973/5155 [2:23:51<10:16:30,  8.85s/it] 19%|█▉        | 974/5155 [2:24:00<10:13:56,  8.81s/it] 19%|█▉        | 975/5155 [2:24:09<10:13:27,  8.81s/it] 19%|█▉        | 976/5155 [2:24:17<10:12:51,  8.80s/it] 19%|█▉        | 977/5155 [2:24:26<10:19:03,  8.89s/it] 19%|█▉        | 978/5155 [2:24:35<10:15:29,  8.84s/it] 19%|█▉        | 979/5155 [2:24:44<10:12:52,  8.81s/it] 19%|█▉        | 980/5155 [2:24:53<10:11:14,  8.78s/it]                                                       {'loss': '0.00106', 'grad_norm': '0.07709', 'learning_rate': '0.0001951', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '140.4', 'tokens/total': 16056320, 'tokens/trainable': 5082759, 'epoch': '0.9503'}
+ 19%|█▉        | 980/5155 [2:24:53<10:11:14,  8.78s/it] 19%|█▉        | 981/5155 [2:25:02<10:18:03,  8.88s/it] 19%|█▉        | 982/5155 [2:25:11<10:15:31,  8.85s/it] 19%|█▉        | 983/5155 [2:25:19<10:13:44,  8.83s/it] 19%|█▉        | 984/5155 [2:25:28<10:12:23,  8.81s/it] 19%|█▉        | 985/5155 [2:25:37<10:11:12,  8.79s/it] 19%|█▉        | 986/5155 [2:25:46<10:18:18,  8.90s/it] 19%|█▉        | 987/5155 [2:25:55<10:15:53,  8.87s/it] 19%|█▉        | 988/5155 [2:26:04<10:13:31,  8.83s/it] 19%|█▉        | 989/5155 [2:26:12<10:12:20,  8.82s/it] 19%|█▉        | 990/5155 [2:26:21<10:19:09,  8.92s/it]                                                       {'loss': '0.0009517', 'grad_norm': '0.04456', 'learning_rate': '0.0001949', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '130.4', 'tokens/total': 16220160, 'tokens/trainable': 5134379, 'epoch': '0.96'}
+ 19%|█▉        | 990/5155 [2:26:21<10:19:09,  8.92s/it] 19%|█▉        | 991/5155 [2:26:30<10:16:38,  8.89s/it] 19%|█▉        | 992/5155 [2:26:39<10:13:40,  8.84s/it] 19%|█▉        | 993/5155 [2:26:48<10:12:02,  8.82s/it] 19%|█▉        | 994/5155 [2:26:57<10:10:42,  8.81s/it] 19%|█▉        | 995/5155 [2:27:06<10:17:02,  8.90s/it] 19%|█▉        | 996/5155 [2:27:14<10:13:26,  8.85s/it] 19%|█▉        | 997/5155 [2:27:23<10:10:52,  8.81s/it] 19%|█▉        | 998/5155 [2:27:32<10:09:08,  8.79s/it] 19%|█▉        | 999/5155 [2:27:41<10:15:17,  8.88s/it] 19%|█▉        | 1000/5155 [2:27:50<10:12:38,  8.85s/it]                                                        {'loss': '0.0008813', 'grad_norm': '0.03574', 'learning_rate': '0.0001947', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '152.3', 'tokens/total': 16384000, 'tokens/trainable': 5186184, 'epoch': '0.9697'}
+ 19%|█▉        | 1000/5155 [2:27:50<10:12:38,  8.85s/it] 19%|█▉        | 1001/5155 [2:27:59<10:11:02,  8.83s/it] 19%|█▉        | 1002/5155 [2:28:07<10:09:35,  8.81s/it] 19%|█▉        | 1003/5155 [2:28:16<10:08:11,  8.79s/it] 19%|█▉        | 1004/5155 [2:28:25<10:14:29,  8.88s/it] 19%|█▉        | 1005/5155 [2:28:34<10:11:22,  8.84s/it] 20%|█▉        | 1006/5155 [2:28:43<10:08:47,  8.80s/it] 20%|█▉        | 1007/5155 [2:28:51<10:07:00,  8.78s/it] 20%|█▉        | 1008/5155 [2:29:00<10:12:51,  8.87s/it] 20%|█▉        | 1009/5155 [2:29:09<10:09:37,  8.82s/it] 20%|█▉        | 1010/5155 [2:29:18<10:07:44,  8.80s/it]                                                        {'loss': '0.0006358', 'grad_norm': '0.0006549', 'learning_rate': '0.0001945', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '161', 'tokens/total': 16547840, 'tokens/trainable': 5238320, 'epoch': '0.9794'}
+ 20%|█▉        | 1010/5155 [2:29:18<10:07:44,  8.80s/it] 20%|█▉        | 1011/5155 [2:29:27<10:07:11,  8.79s/it] 20%|█▉        | 1012/5155 [2:29:35<10:06:33,  8.78s/it] 20%|█▉        | 1013/5155 [2:29:44<10:12:50,  8.88s/it] 20%|█▉        | 1014/5155 [2:29:53<10:09:47,  8.84s/it] 20%|█▉        | 1015/5155 [2:30:02<10:07:28,  8.80s/it] 20%|█▉        | 1016/5155 [2:30:11<10:05:45,  8.78s/it] 20%|█▉        | 1017/5155 [2:30:20<10:12:56,  8.89s/it] 20%|█▉        | 1018/5155 [2:30:29<10:10:06,  8.85s/it] 20%|█▉        | 1019/5155 [2:30:37<10:07:49,  8.82s/it] 20%|█▉        | 1020/5155 [2:30:46<10:06:11,  8.80s/it]                                                        {'loss': '0.0004', 'grad_norm': '0.02174', 'learning_rate': '0.0001942', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '145.3', 'tokens/total': 16711680, 'tokens/trainable': 5290445, 'epoch': '0.9891'}
+ 20%|█▉        | 1020/5155 [2:30:46<10:06:11,  8.80s/it] 20%|█▉        | 1021/5155 [2:30:55<10:05:14,  8.78s/it] 20%|█▉        | 1022/5155 [2:31:04<10:11:56,  8.88s/it] 20%|█▉        | 1023/5155 [2:31:13<10:08:24,  8.83s/it] 20%|█▉        | 1024/5155 [2:31:21<10:06:02,  8.80s/it] 20%|█▉        | 1025/5155 [2:31:30<10:04:07,  8.78s/it] 20%|█▉        | 1026/5155 [2:31:39<10:10:21,  8.87s/it] 20%|█▉        | 1027/5155 [2:31:48<10:07:39,  8.83s/it] 20%|█▉        | 1028/5155 [2:31:57<10:05:50,  8.81s/it] 20%|█▉        | 1029/5155 [2:32:05<10:04:22,  8.79s/it] 20%|█▉        | 1030/5155 [2:32:14<10:03:22,  8.78s/it]                                                        {'loss': '0.0002955', 'grad_norm': '0.04324', 'learning_rate': '0.000194', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '149.8', 'tokens/total': 16875520, 'tokens/trainable': 5342720, 'epoch': '0.9988'}
+ 20%|█▉        | 1030/5155 [2:32:14<10:03:22,  8.78s/it] 20%|██        | 1031/5155 [2:32:32<13:00:40, 11.36s/it][2026-02-26 01:53:18,359] [INFO] [axolotl.core.trainers.base._save:721] [PID:2758243] Saving model checkpoint to /home/jiaruil5/math_rl/mix_teachers/r3lit_rl/mix_teachers/checkpoints/math_operations/primitive_atomic_balanced_sft_50k/checkpoint-1031
+ 20%|██        | 1032/5155 [2:32:42<12:44:17, 11.12s/it][2026-02-26 01:53:28,895] [INFO] [axolotl.core.trainers.base.evaluate:400] [PID:2758243] Running evaluation step...
+[2026-02-26 01:53:30,142] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.6016793251037598
+[2026-02-26 01:53:30,721] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.5786385536193848
+[2026-02-26 01:53:31,325] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.6041269302368164
+[2026-02-26 01:53:31,927] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.6008458137512207
+[2026-02-26 01:53:31,927] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:2758243] gather_len_batches: [17]
+
+  0%|          | 0/17 [00:00<?, ?it/s][A
+ 12%|█▏        | 2/17 [00:00<00:04,  3.23it/s][A
+ 18%|█▊        | 3/17 [00:01<00:06,  2.27it/s][A
+ 24%|██▎       | 4/17 [00:01<00:06,  1.96it/s][A
+ 29%|██▉       | 5/17 [00:02<00:07,  1.63it/s][A
+ 35%|███▌      | 6/17 [00:03<00:06,  1.63it/s][A
+ 41%|████      | 7/17 [00:03<00:06,  1.62it/s][A
+ 47%|████▋     | 8/17 [00:04<00:05,  1.61it/s][A
+ 53%|█████▎    | 9/17 [00:05<00:05,  1.52it/s][A
+ 59%|█████▉    | 10/17 [00:05<00:04,  1.55it/s][A
+ 65%|██████▍   | 11/17 [00:06<00:03,  1.56it/s][A
+ 71%|███████   | 12/17 [00:07<00:03,  1.57it/s][A
+ 76%|███████▋  | 13/17 [00:07<00:02,  1.52it/s][A
+ 82%|████████▏ | 14/17 [00:08<00:01,  1.54it/s][A
+ 88%|████████▊ | 15/17 [00:09<00:01,  1.56it/s][A
+ 94%|█████████▍| 16/17 [00:09<00:00,  1.57it/s][A
+100%|██████████| 17/17 [00:10<00:00,  1.66it/s][A                                                        
+                                               [A{'eval_loss': '0.0004746', 'eval_runtime': '11.79', 'eval_samples_per_second': '16.96', 'eval_steps_per_second': '8.479', 'eval_ppl': '1', 'memory/max_active (GiB)': '16.73', 'memory/max_allocated (GiB)': '16.73', 'memory/device_reserved (GiB)': '20.01', 'epoch': '1.002', 'tokens/train_per_sec_per_gpu': '144.7'}
+ 20%|██        | 1032/5155 [2:32:57<12:44:17, 11.12s/it]
+100%|██████████| 17/17 [00:10<00:00,  1.66it/s][A
+                                               [A 20%|██        | 1033/5155 [2:33:06<17:01:43, 14.87s/it] 20%|██        | 1034/5155 [2:33:14<14:54:38, 13.03s/it] 20%|██        | 1035/5155 [2:33:23<13:26:15, 11.74s/it] 20%|██        | 1036/5155 [2:33:32<12:24:27, 10.84s/it] 20%|██        | 1037/5155 [2:33:41<11:49:52, 10.34s/it] 20%|██        | 1038/5155 [2:33:50<11:16:59,  9.87s/it] 20%|██        | 1039/5155 [2:33:59<10:53:45,  9.53s/it] 20%|██        | 1040/5155 [2:34:07<10:36:56,  9.29s/it]                                                        {'loss': '0.0004762', 'grad_norm': '0.0009881', 'learning_rate': '0.0001938', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '144.7', 'tokens/total': 17051648, 'tokens/trainable': 5398184, 'epoch': '1.01'}
+ 20%|██        | 1040/5155 [2:34:07<10:36:56,  9.29s/it] 20%|██        | 1041/5155 [2:34:16<10:32:41,  9.23s/it] 20%|██        | 1042/5155 [2:34:25<10:22:21,  9.08s/it] 20%|██        | 1043/5155 [2:34:34<10:15:48,  8.99s/it] 20%|██        | 1044/5155 [2:34:43<10:10:53,  8.92s/it] 20%|██        | 1045/5155 [2:34:51<10:07:51,  8.87s/it] 20%|██        | 1046/5155 [2:35:01<10:13:34,  8.96s/it] 20%|██        | 1047/5155 [2:35:09<10:09:52,  8.91s/it] 20%|██        | 1048/5155 [2:35:18<10:06:32,  8.86s/it] 20%|██        | 1049/5155 [2:35:27<10:03:35,  8.82s/it] 20%|██        | 1050/5155 [2:35:36<10:08:56,  8.90s/it]                                                        {'loss': '0.0002268', 'grad_norm': '0.001171', 'learning_rate': '0.0001935', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '140.5', 'tokens/total': 17215488, 'tokens/trainable': 5450329, 'epoch': '1.019'}
+ 20%|██        | 1050/5155 [2:35:36<10:08:56,  8.90s/it] 20%|██        | 1051/5155 [2:35:45<10:05:36,  8.85s/it] 20%|██        | 1052/5155 [2:35:54<10:03:59,  8.83s/it] 20%|██        | 1053/5155 [2:36:02<10:02:37,  8.81s/it] 20%|██        | 1054/5155 [2:36:11<10:01:26,  8.80s/it] 20%|██        | 1055/5155 [2:36:20<10:08:06,  8.90s/it] 20%|██        | 1056/5155 [2:36:29<10:05:16,  8.86s/it] 21%|██        | 1057/5155 [2:36:38<10:03:06,  8.83s/it] 21%|██        | 1058/5155 [2:36:46<10:01:03,  8.80s/it] 21%|██        | 1059/5155 [2:36:56<10:06:57,  8.89s/it] 21%|██        | 1060/5155 [2:37:04<10:05:57,  8.88s/it]                                                        {'loss': '0.0003059', 'grad_norm': '0.007319', 'learning_rate': '0.0001933', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '136.6', 'tokens/total': 17379328, 'tokens/trainable': 5502706, 'epoch': '1.029'}
+ 21%|██        | 1060/5155 [2:37:04<10:05:57,  8.88s/it] 21%|██        | 1061/5155 [2:37:13<10:03:10,  8.84s/it] 21%|██        | 1062/5155 [2:37:22<10:01:27,  8.82s/it] 21%|██        | 1063/5155 [2:37:31<10:00:24,  8.80s/it] 21%|██        | 1064/5155 [2:37:40<10:07:04,  8.90s/it] 21%|██        | 1065/5155 [2:37:49<10:03:29,  8.85s/it] 21%|██        | 1066/5155 [2:37:57<10:00:53,  8.82s/it] 21%|██        | 1067/5155 [2:38:06<9:59:00,  8.79s/it]  21%|██        | 1068/5155 [2:38:15<10:05:17,  8.89s/it] 21%|██        | 1069/5155 [2:38:24<10:02:22,  8.85s/it] 21%|██        | 1070/5155 [2:38:33<10:00:30,  8.82s/it]                                                        {'loss': '0.000364', 'grad_norm': '0.009672', 'learning_rate': '0.000193', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '153.6', 'tokens/total': 17543168, 'tokens/trainable': 5554957, 'epoch': '1.039'}
+ 21%|██        | 1070/5155 [2:38:33<10:00:30,  8.82s/it] 21%|██        | 1071/5155 [2:38:41<9:59:19,  8.81s/it]  21%|██        | 1072/5155 [2:38:50<9:57:50,  8.79s/it] 21%|██        | 1073/5155 [2:38:59<10:04:03,  8.88s/it] 21%|██        | 1074/5155 [2:39:08<10:01:03,  8.84s/it] 21%|██        | 1075/5155 [2:39:17<9:58:52,  8.81s/it]  21%|██        | 1076/5155 [2:39:25<9:57:27,  8.79s/it] 21%|██        | 1077/5155 [2:39:35<10:04:25,  8.89s/it] 21%|██        | 1078/5155 [2:39:43<10:01:23,  8.85s/it] 21%|██        | 1079/5155 [2:39:52<9:59:01,  8.82s/it]  21%|██        | 1080/5155 [2:40:01<9:57:18,  8.79s/it]                                                       {'loss': '0.0002577', 'grad_norm': '0.001848', 'learning_rate': '0.0001928', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '147.3', 'tokens/total': 17707008, 'tokens/trainable': 5607534, 'epoch': '1.048'}
+ 21%|██        | 1080/5155 [2:40:01<9:57:18,  8.79s/it] 21%|██        | 1081/5155 [2:40:10<9:56:12,  8.78s/it] 21%|██        | 1082/5155 [2:40:19<10:03:02,  8.88s/it] 21%|██        | 1083/5155 [2:40:27<9:59:43,  8.84s/it]  21%|██        | 1084/5155 [2:40:36<9:58:21,  8.82s/it] 21%|██        | 1085/5155 [2:40:45<9:57:10,  8.80s/it] 21%|██        | 1086/5155 [2:40:54<10:03:20,  8.90s/it] 21%|██        | 1087/5155 [2:41:03<9:59:51,  8.85s/it]  21%|██        | 1088/5155 [2:41:12<9:57:22,  8.81s/it] 21%|██        | 1089/5155 [2:41:20<9:55:35,  8.79s/it] 21%|██        | 1090/5155 [2:41:29<9:54:18,  8.77s/it]                                                       {'loss': '0.0003648', 'grad_norm': '0.01824', 'learning_rate': '0.0001925', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '142.4', 'tokens/total': 17870848, 'tokens/trainable': 5659689, 'epoch': '1.058'}
+ 21%|██        | 1090/5155 [2:41:29<9:54:18,  8.77s/it] 21%|██        | 1091/5155 [2:41:38<10:01:28,  8.88s/it] 21%|██        | 1092/5155 [2:41:47<9:59:03,  8.85s/it]  21%|██        | 1093/5155 [2:41:56<9:57:15,  8.82s/it] 21%|██        | 1094/5155 [2:42:04<9:55:27,  8.80s/it] 21%|██        | 1095/5155 [2:42:14<10:01:17,  8.89s/it] 21%|██▏       | 1096/5155 [2:42:22<9:58:01,  8.84s/it]  21%|██▏       | 1097/5155 [2:42:31<9:55:42,  8.81s/it] 21%|██▏       | 1098/5155 [2:42:40<9:54:31,  8.79s/it] 21%|██▏       | 1099/5155 [2:42:49<9:53:54,  8.79s/it] 21%|██▏       | 1100/5155 [2:42:58<10:01:55,  8.91s/it]                                                        {'loss': '0.0003046', 'grad_norm': '0.02431', 'learning_rate': '0.0001923', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '136.7', 'tokens/total': 18034688, 'tokens/trainable': 5711346, 'epoch': '1.068'}
+ 21%|██▏       | 1100/5155 [2:42:58<10:01:55,  8.91s/it] 21%|██▏       | 1101/5155 [2:43:06<9:58:51,  8.86s/it]  21%|██▏       | 1102/5155 [2:43:15<9:56:42,  8.83s/it] 21%|██▏       | 1103/5155 [2:43:24<9:55:09,  8.81s/it] 21%|██▏       | 1104/5155 [2:43:33<10:00:35,  8.90s/it] 21%|██▏       | 1105/5155 [2:43:42<9:57:05,  8.85s/it]  21%|██▏       | 1106/5155 [2:43:51<9:54:41,  8.81s/it] 21%|██▏       | 1107/5155 [2:43:59<9:52:51,  8.79s/it] 21%|██▏       | 1108/5155 [2:44:08<9:52:00,  8.78s/it] 22%|██▏       | 1109/5155 [2:44:17<9:58:41,  8.88s/it] 22%|██▏       | 1110/5155 [2:44:26<9:56:11,  8.84s/it]                                                       {'loss': '0.0002334', 'grad_norm': '0.01775', 'learning_rate': '0.000192', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '141.3', 'tokens/total': 18198528, 'tokens/trainable': 5763094, 'epoch': '1.078'}
+ 22%|██▏       | 1110/5155 [2:44:26<9:56:11,  8.84s/it] 22%|██▏       | 1111/5155 [2:44:35<9:56:03,  8.84s/it] 22%|██▏       | 1112/5155 [2:44:43<9:53:42,  8.81s/it] 22%|██▏       | 1113/5155 [2:44:53<9:59:09,  8.89s/it] 22%|██▏       | 1114/5155 [2:45:01<9:55:50,  8.85s/it] 22%|██▏       | 1115/5155 [2:45:10<9:53:34,  8.82s/it] 22%|██▏       | 1116/5155 [2:45:19<9:52:36,  8.80s/it] 22%|██▏       | 1117/5155 [2:45:28<9:51:40,  8.79s/it] 22%|██▏       | 1118/5155 [2:45:37<10:02:04,  8.95s/it] 22%|██▏       | 1119/5155 [2:45:46<9:58:08,  8.89s/it]  22%|██▏       | 1120/5155 [2:45:54<9:55:23,  8.85s/it]                                                       {'loss': '0.0002975', 'grad_norm': '0.005781', 'learning_rate': '0.0001918', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '145.5', 'tokens/total': 18362368, 'tokens/trainable': 5815101, 'epoch': '1.087'}
+ 22%|██▏       | 1120/5155 [2:45:54<9:55:23,  8.85s/it] 22%|██▏       | 1121/5155 [2:46:03<9:52:56,  8.82s/it] 22%|██▏       | 1122/5155 [2:46:12<9:58:19,  8.90s/it] 22%|██▏       | 1123/5155 [2:46:21<9:55:00,  8.85s/it] 22%|██▏       | 1124/5155 [2:46:30<9:52:29,  8.82s/it] 22%|██▏       | 1125/5155 [2:46:39<9:51:04,  8.80s/it] 22%|██▏       | 1126/5155 [2:46:48<9:57:29,  8.90s/it] 22%|██▏       | 1127/5155 [2:46:56<9:54:40,  8.86s/it] 22%|██▏       | 1128/5155 [2:47:05<9:52:11,  8.82s/it] 22%|██▏       | 1129/5155 [2:47:14<9:50:13,  8.80s/it] 22%|██▏       | 1130/5155 [2:47:23<9:48:53,  8.78s/it]                                                       {'loss': '0.000106', 'grad_norm': '0.00264', 'learning_rate': '0.0001915', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '138.7', 'tokens/total': 18526208, 'tokens/trainable': 5866763, 'epoch': '1.097'}
+ 22%|██▏       | 1130/5155 [2:47:23<9:48:53,  8.78s/it] 22%|██▏       | 1131/5155 [2:47:32<9:55:01,  8.87s/it] 22%|██▏       | 1132/5155 [2:47:40<9:52:00,  8.83s/it] 22%|██▏       | 1133/5155 [2:47:49<9:50:58,  8.82s/it] 22%|██▏       | 1134/5155 [2:47:58<9:50:22,  8.81s/it] 22%|██▏       | 1135/5155 [2:48:07<9:57:07,  8.91s/it] 22%|██▏       | 1136/5155 [2:48:16<9:54:19,  8.87s/it] 22%|██▏       | 1137/5155 [2:48:25<9:52:20,  8.85s/it] 22%|██▏       | 1138/5155 [2:48:34<9:51:00,  8.83s/it] 22%|██▏       | 1139/5155 [2:48:42<9:49:59,  8.81s/it] 22%|██▏       | 1140/5155 [2:48:51<9:55:48,  8.90s/it]                                                       {'loss': '0.0002782', 'grad_norm': '0.03587', 'learning_rate': '0.0001912', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '138.3', 'tokens/total': 18690048, 'tokens/trainable': 5918322, 'epoch': '1.107'}
+ 22%|██▏       | 1140/5155 [2:48:51<9:55:48,  8.90s/it] 22%|██▏       | 1141/5155 [2:49:00<9:53:24,  8.87s/it] 22%|██▏       | 1142/5155 [2:49:09<9:51:30,  8.84s/it] 22%|██▏       | 1143/5155 [2:49:18<9:50:01,  8.82s/it] 22%|██▏       | 1144/5155 [2:49:27<9:56:34,  8.92s/it] 22%|██▏       | 1145/5155 [2:49:36<9:53:38,  8.88s/it] 22%|██▏       | 1146/5155 [2:49:44<9:51:15,  8.85s/it] 22%|██▏       | 1147/5155 [2:49:53<9:50:17,  8.84s/it] 22%|██▏       | 1148/5155 [2:50:02<9:49:18,  8.82s/it] 22%|██▏       | 1149/5155 [2:50:11<9:56:01,  8.93s/it] 22%|██▏       | 1150/5155 [2:50:20<9:53:00,  8.88s/it]                                                       {'loss': '0.0002932', 'grad_norm': '0.007715', 'learning_rate': '0.0001909', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '139.5', 'tokens/total': 18853888, 'tokens/trainable': 5970153, 'epoch': '1.116'}
+ 22%|██▏       | 1150/5155 [2:50:20<9:53:00,  8.88s/it] 22%|██▏       | 1151/5155 [2:50:29<9:51:31,  8.86s/it] 22%|██▏       | 1152/5155 [2:50:38<9:49:31,  8.84s/it] 22%|██▏       | 1153/5155 [2:50:47<9:55:01,  8.92s/it] 22%|██▏       | 1154/5155 [2:50:55<9:51:14,  8.87s/it] 22%|██▏       | 1155/5155 [2:51:04<9:49:44,  8.85s/it] 22%|██▏       | 1156/5155 [2:51:13<9:48:27,  8.83s/it] 22%|██▏       | 1157/5155 [2:51:22<9:47:23,  8.82s/it] 22%|██▏       | 1158/5155 [2:51:31<9:53:01,  8.90s/it] 22%|██▏       | 1159/5155 [2:51:40<9:50:04,  8.86s/it] 23%|██▎       | 1160/5155 [2:51:48<9:48:01,  8.83s/it]                                                       {'loss': '0.0005071', 'grad_norm': '0.05123', 'learning_rate': '0.0001906', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '155.1', 'tokens/total': 19017728, 'tokens/trainable': 6021741, 'epoch': '1.126'}
+ 23%|██▎       | 1160/5155 [2:51:48<9:48:01,  8.83s/it] 23%|██▎       | 1161/5155 [2:51:57<9:46:16,  8.81s/it] 23%|██▎       | 1162/5155 [2:52:06<9:51:50,  8.89s/it] 23%|██▎       | 1163/5155 [2:52:15<9:48:34,  8.85s/it] 23%|██▎       | 1164/5155 [2:52:24<9:46:20,  8.81s/it] 23%|██▎       | 1165/5155 [2:52:33<9:44:34,  8.79s/it] 23%|██▎       | 1166/5155 [2:52:41<9:44:03,  8.78s/it] 23%|██▎       | 1167/5155 [2:52:50<9:50:42,  8.89s/it] 23%|██▎       | 1168/5155 [2:52:59<9:47:41,  8.84s/it] 23%|██▎       | 1169/5155 [2:53:08<9:45:03,  8.81s/it] 23%|██▎       | 1170/5155 [2:53:17<9:43:25,  8.78s/it]                                                       {'loss': '0.000315', 'grad_norm': '0.03242', 'learning_rate': '0.0001904', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '160.5', 'tokens/total': 19181568, 'tokens/trainable': 6074092, 'epoch': '1.136'}
+ 23%|██▎       | 1170/5155 [2:53:17<9:43:25,  8.78s/it] 23%|██▎       | 1171/5155 [2:53:26<9:49:02,  8.87s/it] 23%|██▎       | 1172/5155 [2:53:34<9:45:47,  8.82s/it] 23%|██▎       | 1173/5155 [2:53:43<9:44:05,  8.80s/it] 23%|██▎       | 1174/5155 [2:53:52<9:43:27,  8.79s/it] 23%|██▎       | 1175/5155 [2:54:01<9:42:48,  8.79s/it] 23%|██▎       | 1176/5155 [2:54:10<9:49:21,  8.89s/it] 23%|██▎       | 1177/5155 [2:54:19<9:46:13,  8.84s/it] 23%|██▎       | 1178/5155 [2:54:27<9:43:52,  8.81s/it] 23%|██▎       | 1179/5155 [2:54:36<9:42:19,  8.79s/it] 23%|██▎       | 1180/5155 [2:54:45<9:48:16,  8.88s/it]                                                       {'loss': '0.0003225', 'grad_norm': '0.03688', 'learning_rate': '0.0001901', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '141', 'tokens/total': 19345408, 'tokens/trainable': 6126315, 'epoch': '1.145'}
+ 23%|██▎       | 1180/5155 [2:54:45<9:48:16,  8.88s/it] 23%|██▎       | 1181/5155 [2:54:54<9:45:38,  8.84s/it] 23%|██▎       | 1182/5155 [2:55:03<9:43:43,  8.82s/it] 23%|██▎       | 1183/5155 [2:55:11<9:42:14,  8.80s/it] 23%|██▎       | 1184/5155 [2:55:20<9:41:03,  8.78s/it] 23%|██▎       | 1185/5155 [2:55:29<9:47:28,  8.88s/it] 23%|██▎       | 1186/5155 [2:55:38<9:44:32,  8.84s/it] 23%|██▎       | 1187/5155 [2:55:47<9:42:30,  8.81s/it] 23%|██▎       | 1188/5155 [2:55:55<9:40:48,  8.78s/it] 23%|██▎       | 1189/5155 [2:56:05<9:47:49,  8.89s/it] 23%|██▎       | 1190/5155 [2:56:13<9:45:46,  8.86s/it]                                                       {'loss': '0.0004558', 'grad_norm': '0.03359', 'learning_rate': '0.0001898', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '146', 'tokens/total': 19509248, 'tokens/trainable': 6178392, 'epoch': '1.155'}
+ 23%|██▎       | 1190/5155 [2:56:13<9:45:46,  8.86s/it] 23%|██▎       | 1191/5155 [2:56:22<9:44:03,  8.84s/it] 23%|██▎       | 1192/5155 [2:56:31<9:42:23,  8.82s/it] 23%|██▎       | 1193/5155 [2:56:40<9:47:59,  8.90s/it] 23%|██▎       | 1194/5155 [2:56:49<9:44:16,  8.85s/it] 23%|██▎       | 1195/5155 [2:56:58<9:41:55,  8.82s/it] 23%|██▎       | 1196/5155 [2:57:06<9:40:51,  8.80s/it] 23%|██▎       | 1197/5155 [2:57:15<9:40:00,  8.79s/it] 23%|██▎       | 1198/5155 [2:57:24<9:46:28,  8.89s/it] 23%|██▎       | 1199/5155 [2:57:33<9:43:45,  8.85s/it] 23%|██▎       | 1200/5155 [2:57:42<9:41:50,  8.83s/it]                                                       {'loss': '0.0006436', 'grad_norm': '0.02052', 'learning_rate': '0.0001895', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '154.7', 'tokens/total': 19673088, 'tokens/trainable': 6230984, 'epoch': '1.165'}
+ 23%|██▎       | 1200/5155 [2:57:42<9:41:50,  8.83s/it] 23%|██▎       | 1201/5155 [2:57:50<9:40:10,  8.80s/it] 23%|██▎       | 1202/5155 [2:57:59<9:38:46,  8.78s/it] 23%|██▎       | 1203/5155 [2:58:08<9:45:40,  8.89s/it] 23%|██▎       | 1204/5155 [2:58:17<9:43:42,  8.86s/it] 23%|██▎       | 1205/5155 [2:58:26<9:42:33,  8.85s/it] 23%|██▎       | 1206/5155 [2:58:35<9:41:07,  8.83s/it] 23%|██▎       | 1207/5155 [2:58:44<9:46:59,  8.92s/it] 23%|██▎       | 1208/5155 [2:58:53<9:43:42,  8.87s/it] 23%|██▎       | 1209/5155 [2:59:01<9:41:10,  8.84s/it] 23%|██▎       | 1210/5155 [2:59:10<9:39:55,  8.82s/it]                                                       {'loss': '0.0005179', 'grad_norm': '0.002589', 'learning_rate': '0.0001892', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '141.3', 'tokens/total': 19836928, 'tokens/trainable': 6282713, 'epoch': '1.175'}
+ 23%|██▎       | 1210/5155 [2:59:10<9:39:55,  8.82s/it] 23%|██▎       | 1211/5155 [2:59:19<9:45:58,  8.91s/it] 24%|██▎       | 1212/5155 [2:59:28<9:42:43,  8.87s/it] 24%|██▎       | 1213/5155 [2:59:37<9:40:13,  8.83s/it] 24%|██▎       | 1214/5155 [2:59:46<9:38:12,  8.80s/it] 24%|██▎       | 1215/5155 [2:59:54<9:37:16,  8.79s/it] 24%|██▎       | 1216/5155 [3:00:03<9:44:28,  8.90s/it] 24%|██▎       | 1217/5155 [3:00:12<9:42:06,  8.87s/it] 24%|██▎       | 1218/5155 [3:00:21<9:40:35,  8.85s/it] 24%|██▎       | 1219/5155 [3:00:30<9:38:26,  8.82s/it] 24%|██▎       | 1220/5155 [3:00:39<9:43:48,  8.90s/it]                                                       {'loss': '0.0005051', 'grad_norm': '0.01729', 'learning_rate': '0.0001889', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '143.1', 'tokens/total': 20000768, 'tokens/trainable': 6334555, 'epoch': '1.184'}
+ 24%|██▎       | 1220/5155 [3:00:39<9:43:48,  8.90s/it] 24%|██▎       | 1221/5155 [3:00:48<9:40:07,  8.85s/it] 24%|██▎       | 1222/5155 [3:00:56<9:37:26,  8.81s/it] 24%|██▎       | 1223/5155 [3:01:05<9:36:14,  8.79s/it] 24%|██▎       | 1224/5155 [3:01:14<9:35:19,  8.78s/it] 24%|██▍       | 1225/5155 [3:01:23<9:41:44,  8.88s/it] 24%|██▍       | 1226/5155 [3:01:32<9:38:21,  8.83s/it] 24%|██▍       | 1227/5155 [3:01:40<9:35:57,  8.80s/it] 24%|██▍       | 1228/5155 [3:01:49<9:34:19,  8.77s/it] 24%|██▍       | 1229/5155 [3:01:58<9:40:04,  8.87s/it] 24%|██▍       | 1230/5155 [3:02:07<9:37:30,  8.83s/it]                                                       {'loss': '0.0002019', 'grad_norm': '0.002061', 'learning_rate': '0.0001885', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '147.2', 'tokens/total': 20164608, 'tokens/trainable': 6386137, 'epoch': '1.194'}
+ 24%|██▍       | 1230/5155 [3:02:07<9:37:30,  8.83s/it] 24%|██▍       | 1231/5155 [3:02:16<9:36:03,  8.81s/it] 24%|██▍       | 1232/5155 [3:02:24<9:35:14,  8.80s/it] 24%|██▍       | 1233/5155 [3:02:33<9:34:24,  8.79s/it] 24%|██▍       | 1234/5155 [3:02:42<9:41:18,  8.90s/it] 24%|██▍       | 1235/5155 [3:02:51<9:38:36,  8.86s/it] 24%|██▍       | 1236/5155 [3:03:00<9:36:18,  8.82s/it] 24%|██▍       | 1237/5155 [3:03:09<9:34:31,  8.80s/it] 24%|██▍       | 1238/5155 [3:03:18<9:40:20,  8.89s/it] 24%|██▍       | 1239/5155 [3:03:27<9:37:54,  8.85s/it] 24%|██▍       | 1240/5155 [3:03:35<9:36:16,  8.83s/it]                                                       {'loss': '0.0004826', 'grad_norm': '0.02184', 'learning_rate': '0.0001882', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '143.5', 'tokens/total': 20328448, 'tokens/trainable': 6437493, 'epoch': '1.204'}
+ 24%|██▍       | 1240/5155 [3:03:35<9:36:16,  8.83s/it] 24%|██▍       | 1241/5155 [3:03:44<9:35:03,  8.82s/it] 24%|██▍       | 1242/5155 [3:03:53<9:34:16,  8.81s/it] 24%|██▍       | 1243/5155 [3:04:02<9:40:53,  8.91s/it] 24%|██▍       | 1244/5155 [3:04:11<9:38:27,  8.87s/it] 24%|██▍       | 1245/5155 [3:04:20<9:36:07,  8.84s/it] 24%|██▍       | 1246/5155 [3:04:28<9:33:37,  8.80s/it] 24%|██▍       | 1247/5155 [3:04:37<9:39:06,  8.89s/it] 24%|██▍       | 1248/5155 [3:04:46<9:36:24,  8.85s/it] 24%|██▍       | 1249/5155 [3:04:55<9:34:16,  8.82s/it] 24%|██▍       | 1250/5155 [3:05:04<9:32:25,  8.80s/it]                                                       {'loss': '0.0003191', 'grad_norm': '0.04216', 'learning_rate': '0.0001879', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '145.1', 'tokens/total': 20492288, 'tokens/trainable': 6488834, 'epoch': '1.213'}
+ 24%|██▍       | 1250/5155 [3:05:04<9:32:25,  8.80s/it] 24%|██▍       | 1251/5155 [3:05:12<9:31:03,  8.78s/it] 24%|██▍       | 1252/5155 [3:05:21<9:37:01,  8.87s/it] 24%|██▍       | 1253/5155 [3:05:30<9:34:42,  8.84s/it] 24%|██▍       | 1254/5155 [3:05:39<9:32:58,  8.81s/it] 24%|██▍       | 1255/5155 [3:05:48<9:32:00,  8.80s/it] 24%|██▍       | 1256/5155 [3:05:57<9:38:56,  8.91s/it] 24%|██▍       | 1257/5155 [3:06:06<9:36:29,  8.87s/it] 24%|██▍       | 1258/5155 [3:06:14<9:34:28,  8.84s/it] 24%|██▍       | 1259/5155 [3:06:23<9:33:10,  8.83s/it] 24%|██▍       | 1260/5155 [3:06:32<9:31:57,  8.81s/it]                                                       {'loss': '0.0005027', 'grad_norm': '0.006891', 'learning_rate': '0.0001876', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '142.6', 'tokens/total': 20656128, 'tokens/trainable': 6540606, 'epoch': '1.223'}
+ 24%|██▍       | 1260/5155 [3:06:32<9:31:57,  8.81s/it] 24%|██▍       | 1261/5155 [3:06:41<9:38:29,  8.91s/it] 24%|██▍       | 1262/5155 [3:06:50<9:35:43,  8.87s/it] 25%|██▍       | 1263/5155 [3:06:59<9:33:23,  8.84s/it] 25%|██▍       | 1264/5155 [3:07:07<9:31:30,  8.81s/it] 25%|██▍       | 1265/5155 [3:07:17<9:36:53,  8.90s/it] 25%|██▍       | 1266/5155 [3:07:25<9:34:01,  8.86s/it] 25%|██▍       | 1267/5155 [3:07:34<9:31:31,  8.82s/it] 25%|██▍       | 1268/5155 [3:07:43<9:29:58,  8.80s/it] 25%|██▍       | 1269/5155 [3:07:52<9:36:10,  8.90s/it] 25%|██▍       | 1270/5155 [3:08:01<9:33:29,  8.86s/it]                                                       {'loss': '0.000608', 'grad_norm': '0.00549', 'learning_rate': '0.0001872', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '139.2', 'tokens/total': 20819968, 'tokens/trainable': 6592727, 'epoch': '1.233'}
+ 25%|██▍       | 1270/5155 [3:08:01<9:33:29,  8.86s/it] 25%|██▍       | 1271/5155 [3:08:09<9:31:51,  8.83s/it] 25%|██▍       | 1272/5155 [3:08:18<9:30:54,  8.82s/it] 25%|██▍       | 1273/5155 [3:08:27<9:29:45,  8.81s/it] 25%|██▍       | 1274/5155 [3:08:36<9:36:02,  8.91s/it] 25%|██▍       | 1275/5155 [3:08:45<9:32:25,  8.85s/it] 25%|██▍       | 1276/5155 [3:08:54<9:29:40,  8.81s/it] 25%|██▍       | 1277/5155 [3:09:02<9:28:08,  8.79s/it] 25%|██▍       | 1278/5155 [3:09:11<9:34:13,  8.89s/it] 25%|██▍       | 1279/5155 [3:09:20<9:31:36,  8.85s/it] 25%|██▍       | 1280/5155 [3:09:29<9:29:11,  8.81s/it]                                                       {'loss': '0.0006749', 'grad_norm': '0.005877', 'learning_rate': '0.0001869', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '149.3', 'tokens/total': 20983808, 'tokens/trainable': 6645179, 'epoch': '1.242'}
+ 25%|██▍       | 1280/5155 [3:09:29<9:29:11,  8.81s/it] 25%|██▍       | 1281/5155 [3:09:38<9:27:27,  8.79s/it] 25%|██▍       | 1282/5155 [3:09:46<9:25:59,  8.77s/it] 25%|██▍       | 1283/5155 [3:09:55<9:32:02,  8.86s/it] 25%|██▍       | 1284/5155 [3:10:04<9:29:05,  8.82s/it] 25%|██▍       | 1285/5155 [3:10:13<9:27:37,  8.80s/it] 25%|██▍       | 1286/5155 [3:10:22<9:26:39,  8.79s/it] 25%|██▍       | 1287/5155 [3:10:31<9:32:41,  8.88s/it] 25%|██▍       | 1288/5155 [3:10:40<9:29:27,  8.84s/it] 25%|██▌       | 1289/5155 [3:10:48<9:26:57,  8.80s/it] 25%|██▌       | 1290/5155 [3:10:57<9:25:15,  8.77s/it]                                                       {'loss': '0.0002643', 'grad_norm': '0.006139', 'learning_rate': '0.0001866', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '149.2', 'tokens/total': 21147648, 'tokens/trainable': 6697406, 'epoch': '1.252'}
+ 25%|██▌       | 1290/5155 [3:10:57<9:25:15,  8.77s/it] 25%|██▌       | 1291/5155 [3:11:06<9:24:04,  8.76s/it] 25%|██▌       | 1292/5155 [3:11:15<9:30:40,  8.86s/it] 25%|██▌       | 1293/5155 [3:11:24<9:28:09,  8.83s/it] 25%|██▌       | 1294/5155 [3:11:32<9:26:31,  8.80s/it] 25%|██▌       | 1295/5155 [3:11:41<9:25:08,  8.78s/it] 25%|██▌       | 1296/5155 [3:11:50<9:23:54,  8.77s/it] 25%|██▌       | 1297/5155 [3:11:59<9:30:00,  8.86s/it] 25%|██▌       | 1298/5155 [3:12:08<9:27:02,  8.82s/it] 25%|██▌       | 1299/5155 [3:12:16<9:25:08,  8.79s/it] 25%|██▌       | 1300/5155 [3:12:25<9:24:09,  8.78s/it]                                                       {'loss': '0.0004465', 'grad_norm': '0.03445', 'learning_rate': '0.0001862', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '150.7', 'tokens/total': 21311488, 'tokens/trainable': 6749589, 'epoch': '1.262'}
+ 25%|██▌       | 1300/5155 [3:12:25<9:24:09,  8.78s/it] 25%|██▌       | 1301/5155 [3:12:34<9:30:17,  8.88s/it] 25%|██▌       | 1302/5155 [3:12:43<9:27:31,  8.84s/it] 25%|██▌       | 1303/5155 [3:12:52<9:25:09,  8.80s/it] 25%|██▌       | 1304/5155 [3:13:00<9:23:25,  8.78s/it] 25%|██▌       | 1305/5155 [3:13:09<9:22:09,  8.76s/it] 25%|██▌       | 1306/5155 [3:13:18<9:27:56,  8.85s/it] 25%|██▌       | 1307/5155 [3:13:27<9:25:48,  8.82s/it] 25%|██▌       | 1308/5155 [3:13:36<9:24:18,  8.80s/it] 25%|██▌       | 1309/5155 [3:13:44<9:23:08,  8.79s/it] 25%|██▌       | 1310/5155 [3:13:53<9:29:00,  8.88s/it]                                                       {'loss': '0.0002096', 'grad_norm': '0.003664', 'learning_rate': '0.0001859', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '136.9', 'tokens/total': 21475328, 'tokens/trainable': 6801799, 'epoch': '1.272'}
+ 25%|██▌       | 1310/5155 [3:13:54<9:29:00,  8.88s/it] 25%|██▌       | 1311/5155 [3:14:02<9:26:23,  8.84s/it] 25%|██▌       | 1312/5155 [3:14:11<9:23:58,  8.81s/it] 25%|██▌       | 1313/5155 [3:14:20<9:22:13,  8.78s/it] 25%|██▌       | 1314/5155 [3:14:28<9:20:50,  8.76s/it] 26%|██▌       | 1315/5155 [3:14:37<9:26:30,  8.85s/it] 26%|██▌       | 1316/5155 [3:14:46<9:23:54,  8.81s/it] 26%|██▌       | 1317/5155 [3:14:55<9:22:30,  8.79s/it] 26%|██▌       | 1318/5155 [3:15:04<9:21:31,  8.78s/it] 26%|██▌       | 1319/5155 [3:15:13<9:27:13,  8.87s/it] 26%|██▌       | 1320/5155 [3:15:22<9:24:33,  8.83s/it]                                                       {'loss': '0.0002634', 'grad_norm': '0.0032', 'learning_rate': '0.0001855', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '145.8', 'tokens/total': 21639168, 'tokens/trainable': 6854205, 'epoch': '1.281'}
+ 26%|██▌       | 1320/5155 [3:15:22<9:24:33,  8.83s/it] 26%|██▌       | 1321/5155 [3:15:30<9:22:57,  8.81s/it] 26%|██▌       | 1322/5155 [3:15:39<9:21:13,  8.79s/it] 26%|██▌       | 1323/5155 [3:15:48<9:27:02,  8.88s/it] 26%|██▌       | 1324/5155 [3:15:57<9:23:56,  8.83s/it] 26%|██▌       | 1325/5155 [3:16:06<9:21:35,  8.80s/it] 26%|██▌       | 1326/5155 [3:16:14<9:20:04,  8.78s/it] 26%|██▌       | 1327/5155 [3:16:23<9:19:28,  8.77s/it] 26%|██▌       | 1328/5155 [3:16:32<9:25:30,  8.87s/it] 26%|██▌       | 1329/5155 [3:16:41<9:22:51,  8.83s/it] 26%|██▌       | 1330/5155 [3:16:50<9:20:45,  8.80s/it]                                                       {'loss': '0.0003911', 'grad_norm': '0.001093', 'learning_rate': '0.0001852', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '149.6', 'tokens/total': 21803008, 'tokens/trainable': 6906145, 'epoch': '1.291'}
+ 26%|██▌       | 1330/5155 [3:16:50<9:20:45,  8.80s/it] 26%|██▌       | 1331/5155 [3:16:58<9:19:05,  8.77s/it] 26%|██▌       | 1332/5155 [3:17:07<9:24:45,  8.86s/it] 26%|██▌       | 1333/5155 [3:17:16<9:21:56,  8.82s/it] 26%|██▌       | 1334/5155 [3:17:25<9:20:27,  8.80s/it] 26%|██▌       | 1335/5155 [3:17:34<9:19:18,  8.78s/it] 26%|██▌       | 1336/5155 [3:17:42<9:18:23,  8.77s/it] 26%|██▌       | 1337/5155 [3:17:51<9:24:10,  8.87s/it] 26%|██▌       | 1338/5155 [3:18:00<9:21:18,  8.82s/it] 26%|██▌       | 1339/5155 [3:18:09<9:19:32,  8.80s/it] 26%|██▌       | 1340/5155 [3:18:18<9:18:09,  8.78s/it]                                                       {'loss': '0.000308', 'grad_norm': '0.0006914', 'learning_rate': '0.0001848', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '151.3', 'tokens/total': 21966848, 'tokens/trainable': 6957405, 'epoch': '1.301'}
+ 26%|██▌       | 1340/5155 [3:18:18<9:18:09,  8.78s/it] 26%|██▌       | 1341/5155 [3:18:27<9:24:31,  8.88s/it] 26%|██▌       | 1342/5155 [3:18:35<9:21:57,  8.84s/it] 26%|██▌       | 1343/5155 [3:18:44<9:20:06,  8.82s/it] 26%|██▌       | 1344/5155 [3:18:53<9:18:38,  8.80s/it] 26%|██▌       | 1345/5155 [3:19:02<9:17:31,  8.78s/it] 26%|██▌       | 1346/5155 [3:19:11<9:23:18,  8.87s/it] 26%|██▌       | 1347/5155 [3:19:20<9:20:12,  8.83s/it] 26%|██▌       | 1348/5155 [3:19:28<9:17:58,  8.79s/it] 26%|██▌       | 1349/5155 [3:19:37<9:16:24,  8.77s/it] 26%|██▌       | 1350/5155 [3:19:46<9:21:39,  8.86s/it]                                                       {'loss': '0.0003282', 'grad_norm': '0.03036', 'learning_rate': '0.0001845', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '150.8', 'tokens/total': 22130688, 'tokens/trainable': 7009256, 'epoch': '1.31'}
+ 26%|██▌       | 1350/5155 [3:19:46<9:21:39,  8.86s/it] 26%|██▌       | 1351/5155 [3:19:55<9:24:26,  8.90s/it] 26%|██▌       | 1352/5155 [3:20:04<9:21:27,  8.86s/it] 26%|██▌       | 1353/5155 [3:20:13<9:19:13,  8.83s/it] 26%|██▋       | 1354/5155 [3:20:21<9:17:52,  8.81s/it] 26%|██▋       | 1355/5155 [3:20:30<9:23:31,  8.90s/it] 26%|██▋       | 1356/5155 [3:20:39<9:20:21,  8.85s/it] 26%|██▋       | 1357/5155 [3:20:48<9:17:59,  8.82s/it] 26%|██▋       | 1358/5155 [3:20:57<9:16:22,  8.79s/it] 26%|██▋       | 1359/5155 [3:21:06<9:21:50,  8.88s/it] 26%|██▋       | 1360/5155 [3:21:14<9:18:54,  8.84s/it]                                                       {'loss': '0.0006514', 'grad_norm': '0.01258', 'learning_rate': '0.0001841', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '146.6', 'tokens/total': 22294528, 'tokens/trainable': 7060734, 'epoch': '1.32'}
+ 26%|██▋       | 1360/5155 [3:21:14<9:18:54,  8.84s/it] 26%|██▋       | 1361/5155 [3:21:23<9:17:20,  8.81s/it] 26%|██▋       | 1362/5155 [3:21:32<9:16:06,  8.80s/it] 26%|██▋       | 1363/5155 [3:21:41<9:19:17,  8.85s/it] 26%|██▋       | 1364/5155 [3:21:50<9:24:06,  8.93s/it] 26%|██▋       | 1365/5155 [3:21:59<9:20:28,  8.87s/it] 26%|██▋       | 1366/5155 [3:22:08<9:17:43,  8.83s/it] 27%|██▋       | 1367/5155 [3:22:16<9:15:27,  8.80s/it] 27%|██▋       | 1368/5155 [3:22:25<9:20:33,  8.88s/it] 27%|██▋       | 1369/5155 [3:22:34<9:17:25,  8.83s/it] 27%|██▋       | 1370/5155 [3:22:43<9:15:45,  8.81s/it]                                                       {'loss': '0.0003021', 'grad_norm': '0.008283', 'learning_rate': '0.0001837', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '150.9', 'tokens/total': 22458368, 'tokens/trainable': 7112415, 'epoch': '1.33'}
+ 27%|██▋       | 1370/5155 [3:22:43<9:15:45,  8.81s/it] 27%|██▋       | 1371/5155 [3:22:52<9:15:05,  8.80s/it] 27%|██▋       | 1372/5155 [3:23:00<9:14:06,  8.79s/it] 27%|██▋       | 1373/5155 [3:23:09<9:20:45,  8.90s/it] 27%|██▋       | 1374/5155 [3:23:18<9:18:09,  8.86s/it] 27%|██▋       | 1375/5155 [3:23:27<9:16:35,  8.83s/it] 27%|██▋       | 1376/5155 [3:23:36<9:15:25,  8.82s/it] 27%|██▋       | 1377/5155 [3:23:45<9:14:26,  8.81s/it] 27%|██▋       | 1378/5155 [3:23:54<9:20:46,  8.91s/it] 27%|██▋       | 1379/5155 [3:24:03<9:18:32,  8.88s/it] 27%|██▋       | 1380/5155 [3:24:11<9:16:25,  8.84s/it]                                                       {'loss': '0.0006798', 'grad_norm': '0.09483', 'learning_rate': '0.0001834', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '150.3', 'tokens/total': 22622208, 'tokens/trainable': 7164110, 'epoch': '1.339'}
+ 27%|██▋       | 1380/5155 [3:24:11<9:16:25,  8.84s/it] 27%|██▋       | 1381/5155 [3:24:20<9:14:36,  8.82s/it] 27%|██▋       | 1382/5155 [3:24:29<9:19:13,  8.89s/it] 27%|██▋       | 1383/5155 [3:24:38<9:15:44,  8.84s/it] 27%|██▋       | 1384/5155 [3:24:47<9:13:34,  8.81s/it] 27%|██▋       | 1385/5155 [3:24:55<9:11:42,  8.78s/it] 27%|██▋       | 1386/5155 [3:25:04<9:10:39,  8.77s/it] 27%|██▋       | 1387/5155 [3:25:13<9:17:03,  8.87s/it] 27%|██▋       | 1388/5155 [3:25:22<9:14:40,  8.83s/it] 27%|██▋       | 1389/5155 [3:25:31<9:12:44,  8.81s/it] 27%|██▋       | 1390/5155 [3:25:39<9:11:31,  8.79s/it]                                                       {'loss': '0.0007296', 'grad_norm': '0.04535', 'learning_rate': '0.000183', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '154.9', 'tokens/total': 22786048, 'tokens/trainable': 7215797, 'epoch': '1.349'}
+ 27%|██▋       | 1390/5155 [3:25:39<9:11:31,  8.79s/it] 27%|██▋       | 1391/5155 [3:25:48<9:17:21,  8.88s/it] 27%|██▋       | 1392/5155 [3:25:57<9:14:05,  8.83s/it] 27%|██▋       | 1393/5155 [3:26:06<9:11:51,  8.80s/it] 27%|██▋       | 1394/5155 [3:26:15<9:10:13,  8.78s/it] 27%|██▋       | 1395/5155 [3:26:24<9:15:41,  8.87s/it] 27%|██▋       | 1396/5155 [3:26:32<9:13:10,  8.83s/it] 27%|██▋       | 1397/5155 [3:26:41<9:11:37,  8.81s/it] 27%|██▋       | 1398/5155 [3:26:50<9:10:22,  8.79s/it] 27%|██▋       | 1399/5155 [3:26:59<9:10:04,  8.79s/it] 27%|██▋       | 1400/5155 [3:27:08<9:16:26,  8.89s/it]                                                       {'loss': '0.0007515', 'grad_norm': '0.01074', 'learning_rate': '0.0001826', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '141.4', 'tokens/total': 22949888, 'tokens/trainable': 7267691, 'epoch': '1.359'}
+ 27%|██▋       | 1400/5155 [3:27:08<9:16:26,  8.89s/it] 27%|██▋       | 1401/5155 [3:27:17<9:14:03,  8.86s/it] 27%|██▋       | 1402/5155 [3:27:25<9:12:18,  8.83s/it] 27%|██▋       | 1403/5155 [3:27:34<9:10:56,  8.81s/it] 27%|██▋       | 1404/5155 [3:27:43<9:17:11,  8.91s/it] 27%|██▋       | 1405/5155 [3:27:52<9:14:06,  8.87s/it] 27%|██▋       | 1406/5155 [3:28:01<9:11:10,  8.82s/it] 27%|██▋       | 1407/5155 [3:28:10<9:09:49,  8.80s/it] 27%|██▋       | 1408/5155 [3:28:18<9:08:47,  8.79s/it] 27%|██▋       | 1409/5155 [3:28:27<9:14:31,  8.88s/it] 27%|██▋       | 1410/5155 [3:28:36<9:11:34,  8.84s/it]                                                       {'loss': '0.00142', 'grad_norm': '0.056', 'learning_rate': '0.0001822', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '153', 'tokens/total': 23113728, 'tokens/trainable': 7319876, 'epoch': '1.368'}
+ 27%|██▋       | 1410/5155 [3:28:36<9:11:34,  8.84s/it] 27%|██▋       | 1411/5155 [3:28:45<9:09:28,  8.81s/it] 27%|██▋       | 1412/5155 [3:28:54<9:07:56,  8.78s/it] 27%|██▋       | 1413/5155 [3:29:03<9:13:27,  8.87s/it] 27%|██▋       | 1414/5155 [3:29:11<9:10:50,  8.83s/it] 27%|██▋       | 1415/5155 [3:29:20<9:09:08,  8.81s/it] 27%|██▋       | 1416/5155 [3:29:29<9:07:52,  8.79s/it] 27%|██▋       | 1417/5155 [3:29:38<9:06:44,  8.78s/it] 28%|██▊       | 1418/5155 [3:29:47<9:12:26,  8.87s/it] 28%|██▊       | 1419/5155 [3:29:56<9:09:56,  8.83s/it] 28%|██▊       | 1420/5155 [3:30:04<9:07:50,  8.80s/it]                                                       {'loss': '0.002241', 'grad_norm': '0.01946', 'learning_rate': '0.0001818', 'ppl': '1.002', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '143.8', 'tokens/total': 23277568, 'tokens/trainable': 7371762, 'epoch': '1.378'}
+ 28%|██▊       | 1420/5155 [3:30:04<9:07:50,  8.80s/it] 28%|██▊       | 1421/5155 [3:30:13<9:06:13,  8.78s/it] 28%|██▊       | 1422/5155 [3:30:22<9:11:44,  8.87s/it] 28%|██▊       | 1423/5155 [3:30:31<9:08:42,  8.82s/it] 28%|██▊       | 1424/5155 [3:30:40<9:07:05,  8.80s/it] 28%|██▊       | 1425/5155 [3:30:48<9:06:05,  8.78s/it] 28%|██▊       | 1426/5155 [3:30:57<9:05:50,  8.78s/it] 28%|██▊       | 1427/5155 [3:31:06<9:11:45,  8.88s/it] 28%|██▊       | 1428/5155 [3:31:15<9:08:55,  8.84s/it] 28%|██▊       | 1429/5155 [3:31:24<9:06:37,  8.80s/it] 28%|██▊       | 1430/5155 [3:31:32<9:04:56,  8.78s/it]                                                       {'loss': '0.0009159', 'grad_norm': '0.03277', 'learning_rate': '0.0001815', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '146.6', 'tokens/total': 23441408, 'tokens/trainable': 7423685, 'epoch': '1.388'}
+ 28%|██▊       | 1430/5155 [3:31:32<9:04:56,  8.78s/it] 28%|██▊       | 1431/5155 [3:31:41<9:10:22,  8.87s/it] 28%|██▊       | 1432/5155 [3:31:50<9:08:30,  8.84s/it] 28%|██▊       | 1433/5155 [3:31:59<9:06:54,  8.82s/it] 28%|██▊       | 1434/5155 [3:32:08<9:05:43,  8.80s/it] 28%|██▊       | 1435/5155 [3:32:16<9:04:18,  8.78s/it] 28%|██▊       | 1436/5155 [3:32:26<9:09:59,  8.87s/it] 28%|██▊       | 1437/5155 [3:32:34<9:07:17,  8.83s/it] 28%|██▊       | 1438/5155 [3:32:43<9:05:25,  8.80s/it] 28%|██▊       | 1439/5155 [3:32:52<9:04:32,  8.79s/it] 28%|██▊       | 1440/5155 [3:33:01<9:10:42,  8.89s/it]                                                       {'loss': '0.0008979', 'grad_norm': '0.01564', 'learning_rate': '0.0001811', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '139.9', 'tokens/total': 23605248, 'tokens/trainable': 7476266, 'epoch': '1.398'}
+ 28%|██▊       | 1440/5155 [3:33:01<9:10:42,  8.89s/it] 28%|██▊       | 1441/5155 [3:33:10<9:08:13,  8.86s/it] 28%|██▊       | 1442/5155 [3:33:18<9:05:56,  8.82s/it] 28%|██▊       | 1443/5155 [3:33:27<9:04:14,  8.80s/it] 28%|██▊       | 1444/5155 [3:33:36<9:02:57,  8.78s/it] 28%|██▊       | 1445/5155 [3:33:45<9:08:24,  8.87s/it] 28%|██▊       | 1446/5155 [3:33:54<9:06:00,  8.83s/it] 28%|██▊       | 1447/5155 [3:34:03<9:04:41,  8.81s/it] 28%|██▊       | 1448/5155 [3:34:11<9:03:33,  8.80s/it] 28%|██▊       | 1449/5155 [3:34:20<9:09:17,  8.89s/it] 28%|██▊       | 1450/5155 [3:34:29<9:06:39,  8.85s/it]                                                       {'loss': '0.0009229', 'grad_norm': '0.01644', 'learning_rate': '0.0001807', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '145.7', 'tokens/total': 23769088, 'tokens/trainable': 7528208, 'epoch': '1.407'}
+ 28%|██▊       | 1450/5155 [3:34:29<9:06:39,  8.85s/it] 28%|██▊       | 1451/5155 [3:34:38<9:04:58,  8.83s/it] 28%|██▊       | 1452/5155 [3:34:47<9:03:42,  8.81s/it] 28%|██▊       | 1453/5155 [3:34:55<9:02:10,  8.79s/it] 28%|██▊       | 1454/5155 [3:35:04<9:07:32,  8.88s/it] 28%|██▊       | 1455/5155 [3:35:13<9:04:52,  8.84s/it] 28%|██▊       | 1456/5155 [3:35:22<9:03:14,  8.81s/it] 28%|██▊       | 1457/5155 [3:35:31<9:02:16,  8.80s/it] 28%|██▊       | 1458/5155 [3:35:40<9:07:56,  8.89s/it] 28%|██▊       | 1459/5155 [3:35:49<9:04:52,  8.85s/it] 28%|██▊       | 1460/5155 [3:35:57<9:02:32,  8.81s/it]                                                       {'loss': '0.001165', 'grad_norm': '0.02432', 'learning_rate': '0.0001803', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '139.1', 'tokens/total': 23932928, 'tokens/trainable': 7580038, 'epoch': '1.417'}
+ 28%|██▊       | 1460/5155 [3:35:57<9:02:32,  8.81s/it] 28%|██▊       | 1461/5155 [3:36:06<9:00:48,  8.78s/it] 28%|██▊       | 1462/5155 [3:36:15<9:06:17,  8.88s/it] 28%|██▊       | 1463/5155 [3:36:24<9:03:33,  8.83s/it] 28%|██▊       | 1464/5155 [3:36:33<9:01:55,  8.81s/it] 28%|██▊       | 1465/5155 [3:36:41<9:00:36,  8.79s/it] 28%|██▊       | 1466/5155 [3:36:50<8:59:24,  8.77s/it] 28%|██▊       | 1467/5155 [3:36:59<9:04:43,  8.86s/it] 28%|██▊       | 1468/5155 [3:37:08<9:02:30,  8.83s/it] 28%|██▊       | 1469/5155 [3:37:17<9:00:20,  8.80s/it] 29%|██▊       | 1470/5155 [3:37:25<8:58:58,  8.78s/it]                                                       {'loss': '0.0009731', 'grad_norm': '0.05166', 'learning_rate': '0.0001799', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '145.6', 'tokens/total': 24096768, 'tokens/trainable': 7631772, 'epoch': '1.427'}
+ 29%|██▊       | 1470/5155 [3:37:25<8:58:58,  8.78s/it] 29%|██▊       | 1471/5155 [3:37:34<9:04:59,  8.88s/it] 29%|██▊       | 1472/5155 [3:37:43<9:02:33,  8.84s/it] 29%|██▊       | 1473/5155 [3:37:52<9:00:39,  8.81s/it] 29%|██▊       | 1474/5155 [3:38:01<8:59:24,  8.79s/it] 29%|██▊       | 1475/5155 [3:38:09<8:58:24,  8.78s/it] 29%|██▊       | 1476/5155 [3:38:19<9:03:49,  8.87s/it] 29%|██▊       | 1477/5155 [3:38:27<9:01:09,  8.83s/it] 29%|██▊       | 1478/5155 [3:38:36<8:59:15,  8.80s/it] 29%|██▊       | 1479/5155 [3:38:45<8:57:57,  8.78s/it] 29%|██▊       | 1480/5155 [3:38:54<9:04:01,  8.88s/it]                                                       {'loss': '0.0005802', 'grad_norm': '0.0253', 'learning_rate': '0.0001794', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '137.2', 'tokens/total': 24260608, 'tokens/trainable': 7683048, 'epoch': '1.436'}
+ 29%|██▊       | 1480/5155 [3:38:54<9:04:01,  8.88s/it] 29%|██▊       | 1481/5155 [3:39:03<9:01:58,  8.85s/it] 29%|██▊       | 1482/5155 [3:39:11<9:00:29,  8.83s/it] 29%|██▉       | 1483/5155 [3:39:20<8:59:02,  8.81s/it] 29%|██▉       | 1484/5155 [3:39:29<8:57:33,  8.79s/it] 29%|██▉       | 1485/5155 [3:39:38<9:03:15,  8.88s/it] 29%|██▉       | 1486/5155 [3:39:47<9:00:36,  8.84s/it] 29%|██▉       | 1487/5155 [3:39:56<8:58:45,  8.81s/it] 29%|██▉       | 1488/5155 [3:40:04<8:57:59,  8.80s/it] 29%|██▉       | 1489/5155 [3:40:13<9:03:55,  8.90s/it] 29%|██▉       | 1490/5155 [3:40:22<9:01:05,  8.86s/it]                                                       {'loss': '0.0006425', 'grad_norm': '0.06707', 'learning_rate': '0.000179', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '143.3', 'tokens/total': 24424448, 'tokens/trainable': 7735332, 'epoch': '1.446'}
+ 29%|██▉       | 1490/5155 [3:40:22<9:01:05,  8.86s/it] 29%|██▉       | 1491/5155 [3:40:31<8:58:43,  8.82s/it] 29%|██▉       | 1492/5155 [3:40:40<8:57:01,  8.80s/it] 29%|██▉       | 1493/5155 [3:40:48<8:55:49,  8.78s/it] 29%|██▉       | 1494/5155 [3:40:57<9:01:10,  8.87s/it] 29%|██▉       | 1495/5155 [3:41:06<8:59:15,  8.84s/it] 29%|██▉       | 1496/5155 [3:41:15<8:57:48,  8.82s/it] 29%|██▉       | 1497/5155 [3:41:24<8:56:34,  8.80s/it] 29%|██▉       | 1498/5155 [3:41:33<9:01:38,  8.89s/it] 29%|██▉       | 1499/5155 [3:41:42<8:58:44,  8.84s/it] 29%|██▉       | 1500/5155 [3:41:50<8:56:40,  8.81s/it]                                                       {'loss': '0.0003283', 'grad_norm': '0.02367', 'learning_rate': '0.0001786', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '163.7', 'tokens/total': 24588288, 'tokens/trainable': 7787186, 'epoch': '1.456'}
+ 29%|██▉       | 1500/5155 [3:41:50<8:56:40,  8.81s/it] 29%|██▉       | 1501/5155 [3:41:59<8:55:08,  8.79s/it] 29%|██▉       | 1502/5155 [3:42:08<8:54:34,  8.78s/it] 29%|██▉       | 1503/5155 [3:42:17<9:00:37,  8.88s/it] 29%|██▉       | 1504/5155 [3:42:26<8:58:11,  8.84s/it] 29%|██▉       | 1505/5155 [3:42:34<8:56:03,  8.81s/it] 29%|██▉       | 1506/5155 [3:42:43<8:54:45,  8.79s/it] 29%|██▉       | 1507/5155 [3:42:52<8:59:51,  8.88s/it] 29%|██▉       | 1508/5155 [3:43:01<8:57:02,  8.84s/it] 29%|██▉       | 1509/5155 [3:43:10<8:55:26,  8.81s/it] 29%|██▉       | 1510/5155 [3:43:19<8:54:31,  8.80s/it]                                                       {'loss': '0.0009691', 'grad_norm': '0.01168', 'learning_rate': '0.0001782', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '135.5', 'tokens/total': 24752128, 'tokens/trainable': 7838878, 'epoch': '1.465'}
+ 29%|██▉       | 1510/5155 [3:43:19<8:54:31,  8.80s/it] 29%|██▉       | 1511/5155 [3:43:27<8:53:48,  8.79s/it] 29%|██▉       | 1512/5155 [3:43:36<9:00:26,  8.90s/it] 29%|██▉       | 1513/5155 [3:43:45<8:58:04,  8.86s/it] 29%|██▉       | 1514/5155 [3:43:54<8:55:51,  8.83s/it] 29%|██▉       | 1515/5155 [3:44:03<8:54:33,  8.81s/it] 29%|██▉       | 1516/5155 [3:44:12<9:00:08,  8.91s/it] 29%|██▉       | 1517/5155 [3:44:21<8:58:05,  8.87s/it] 29%|██▉       | 1518/5155 [3:44:30<8:56:54,  8.86s/it] 29%|██▉       | 1519/5155 [3:44:38<8:55:57,  8.84s/it] 29%|██▉       | 1520/5155 [3:44:47<8:54:58,  8.83s/it]                                                       {'loss': '0.0009099', 'grad_norm': '0.05299', 'learning_rate': '0.0001778', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '143.3', 'tokens/total': 24915968, 'tokens/trainable': 7890631, 'epoch': '1.475'}
+ 29%|██▉       | 1520/5155 [3:44:47<8:54:58,  8.83s/it] 30%|██▉       | 1521/5155 [3:44:56<9:00:50,  8.93s/it] 30%|██▉       | 1522/5155 [3:45:05<8:57:02,  8.87s/it] 30%|██▉       | 1523/5155 [3:45:14<8:54:27,  8.83s/it] 30%|██▉       | 1524/5155 [3:45:23<8:53:02,  8.81s/it] 30%|██▉       | 1525/5155 [3:45:32<8:58:52,  8.91s/it] 30%|██▉       | 1526/5155 [3:45:40<8:56:21,  8.87s/it] 30%|██▉       | 1527/5155 [3:45:49<8:54:12,  8.83s/it] 30%|██▉       | 1528/5155 [3:45:58<8:53:25,  8.82s/it] 30%|██▉       | 1529/5155 [3:46:07<8:52:58,  8.82s/it] 30%|██▉       | 1530/5155 [3:46:16<8:58:53,  8.92s/it]                                                       {'loss': '0.0006458', 'grad_norm': '0.03792', 'learning_rate': '0.0001773', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '132.5', 'tokens/total': 25079808, 'tokens/trainable': 7942366, 'epoch': '1.485'}
+ 30%|██▉       | 1530/5155 [3:46:16<8:58:53,  8.92s/it] 30%|██▉       | 1531/5155 [3:46:25<8:56:08,  8.88s/it] 30%|██▉       | 1532/5155 [3:46:33<8:53:24,  8.83s/it] 30%|██▉       | 1533/5155 [3:46:42<8:51:15,  8.80s/it] 30%|██▉       | 1534/5155 [3:46:51<8:56:39,  8.89s/it] 30%|██▉       | 1535/5155 [3:47:00<8:53:48,  8.85s/it] 30%|██▉       | 1536/5155 [3:47:09<8:51:59,  8.82s/it] 30%|██▉       | 1537/5155 [3:47:18<8:51:16,  8.81s/it] 30%|██▉       | 1538/5155 [3:47:26<8:50:57,  8.81s/it] 30%|██▉       | 1539/5155 [3:47:36<8:57:15,  8.91s/it] 30%|██▉       | 1540/5155 [3:47:44<8:54:28,  8.87s/it]                                                       {'loss': '0.0009943', 'grad_norm': '0.0273', 'learning_rate': '0.0001769', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '143.7', 'tokens/total': 25243648, 'tokens/trainable': 7994307, 'epoch': '1.495'}
+ 30%|██▉       | 1540/5155 [3:47:44<8:54:28,  8.87s/it] 30%|██▉       | 1541/5155 [3:47:53<8:51:39,  8.83s/it] 30%|██▉       | 1542/5155 [3:48:02<8:49:37,  8.80s/it] 30%|██▉       | 1543/5155 [3:48:11<8:54:21,  8.88s/it] 30%|██▉       | 1544/5155 [3:48:20<8:51:59,  8.84s/it] 30%|██▉       | 1545/5155 [3:48:28<8:50:17,  8.81s/it] 30%|██▉       | 1546/5155 [3:48:37<8:49:12,  8.80s/it] 30%|███       | 1547/5155 [3:48:46<8:48:33,  8.79s/it] 30%|███       | 1548/5155 [3:48:55<8:54:36,  8.89s/it][2026-02-26 03:09:41,748] [INFO] [axolotl.core.trainers.base.evaluate:400] [PID:2758243] Running evaluation step...
+[2026-02-26 03:09:42,909] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.5829319953918457
+[2026-02-26 03:09:43,501] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.5911674499511719
+[2026-02-26 03:09:44,076] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.5751769542694092
+[2026-02-26 03:09:44,672] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.5949869155883789
+[2026-02-26 03:09:44,672] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:2758243] gather_len_batches: [17]
+
+  0%|          | 0/17 [00:00<?, ?it/s][A
+ 12%|█▏        | 2/17 [00:00<00:04,  3.20it/s][A
+ 18%|█▊        | 3/17 [00:01<00:06,  2.25it/s][A
+ 24%|██▎       | 4/17 [00:01<00:06,  1.94it/s][A
+ 29%|██▉       | 5/17 [00:02<00:07,  1.64it/s][A
+ 35%|███▌      | 6/17 [00:03<00:06,  1.63it/s][A
+ 41%|████      | 7/17 [00:03<00:06,  1.62it/s][A
+ 47%|████▋     | 8/17 [00:04<00:05,  1.61it/s][A
+ 53%|█████▎    | 9/17 [00:05<00:05,  1.42it/s][A
+ 59%|█████▉    | 10/17 [00:06<00:04,  1.47it/s][A
+ 65%|██████▍   | 11/17 [00:06<00:03,  1.51it/s][A
+ 71%|███████   | 12/17 [00:07<00:03,  1.53it/s][A
+ 76%|███████▋  | 13/17 [00:08<00:02,  1.38it/s][A
+ 82%|████████▏ | 14/17 [00:08<00:02,  1.45it/s][A
+ 88%|████████▊ | 15/17 [00:09<00:01,  1.49it/s][A
+ 94%|█████████▍| 16/17 [00:10<00:00,  1.52it/s][A
+100%|██████████| 17/17 [00:10<00:00,  1.62it/s][A                                                       
+                                               [A{'eval_loss': '0.0006866', 'eval_runtime': '12.13', 'eval_samples_per_second': '16.49', 'eval_steps_per_second': '8.246', 'eval_ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'epoch': '1.502', 'tokens/train_per_sec_per_gpu': '134.9'}
+ 30%|███       | 1548/5155 [3:49:10<8:54:36,  8.89s/it]
+100%|██████████| 17/17 [00:10<00:00,  1.62it/s][A
+                                               [A 30%|███       | 1549/5155 [3:49:19<13:23:16, 13.37s/it] 30%|███       | 1550/5155 [3:49:28<11:59:59, 11.98s/it]                                                        {'loss': '0.0006285', 'grad_norm': '0.05327', 'learning_rate': '0.0001765', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '148.7', 'tokens/total': 25407488, 'tokens/trainable': 8046124, 'epoch': '1.504'}
+ 30%|███       | 1550/5155 [3:49:28<11:59:59, 11.98s/it] 30%|███       | 1551/5155 [3:49:36<11:01:35, 11.01s/it] 30%|███       | 1552/5155 [3:49:45<10:20:55, 10.34s/it] 30%|███       | 1553/5155 [3:49:54<9:59:52,  9.99s/it]  30%|███       | 1554/5155 [3:50:03<9:37:30,  9.62s/it] 30%|███       | 1555/5155 [3:50:12<9:21:24,  9.36s/it] 30%|███       | 1556/5155 [3:50:21<9:10:25,  9.18s/it] 30%|███       | 1557/5155 [3:50:30<9:10:23,  9.18s/it] 30%|███       | 1558/5155 [3:50:39<9:03:44,  9.07s/it] 30%|███       | 1559/5155 [3:50:47<8:59:00,  8.99s/it] 30%|███       | 1560/5155 [3:50:56<8:55:39,  8.94s/it]                                                       {'loss': '0.0005064', 'grad_norm': '0.05233', 'learning_rate': '0.000176', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '143.9', 'tokens/total': 25571328, 'tokens/trainable': 8098367, 'epoch': '1.514'}
+ 30%|███       | 1560/5155 [3:50:56<8:55:39,  8.94s/it] 30%|███       | 1561/5155 [3:51:05<8:52:40,  8.89s/it] 30%|███       | 1562/5155 [3:51:14<8:56:40,  8.96s/it] 30%|███       | 1563/5155 [3:51:23<8:52:33,  8.90s/it] 30%|███       | 1564/5155 [3:51:32<8:49:36,  8.85s/it] 30%|███       | 1565/5155 [3:51:40<8:47:31,  8.82s/it] 30%|███       | 1566/5155 [3:51:49<8:52:47,  8.91s/it] 30%|███       | 1567/5155 [3:51:58<8:49:24,  8.85s/it] 30%|███       | 1568/5155 [3:52:07<8:47:22,  8.82s/it] 30%|███       | 1569/5155 [3:52:16<8:45:47,  8.80s/it] 30%|███       | 1570/5155 [3:52:24<8:44:44,  8.78s/it]                                                       {'loss': '0.0004743', 'grad_norm': '0.01544', 'learning_rate': '0.0001756', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '141.9', 'tokens/total': 25735168, 'tokens/trainable': 8150005, 'epoch': '1.524'}
+ 30%|███       | 1570/5155 [3:52:24<8:44:44,  8.78s/it] 30%|███       | 1571/5155 [3:52:34<8:51:52,  8.90s/it] 30%|███       | 1572/5155 [3:52:42<8:50:02,  8.88s/it] 31%|███       | 1573/5155 [3:52:51<8:48:43,  8.86s/it] 31%|███       | 1574/5155 [3:53:00<8:46:53,  8.83s/it] 31%|███       | 1575/5155 [3:53:09<8:52:19,  8.92s/it] 31%|███       | 1576/5155 [3:53:18<8:49:12,  8.87s/it] 31%|███       | 1577/5155 [3:53:27<8:46:28,  8.83s/it] 31%|███       | 1578/5155 [3:53:35<8:44:40,  8.80s/it] 31%|███       | 1579/5155 [3:53:44<8:43:21,  8.78s/it] 31%|███       | 1580/5155 [3:53:53<8:48:58,  8.88s/it]                                                       {'loss': '0.0005523', 'grad_norm': '0.005799', 'learning_rate': '0.0001752', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '149.4', 'tokens/total': 25899008, 'tokens/trainable': 8201985, 'epoch': '1.533'}
+ 31%|███       | 1580/5155 [3:53:53<8:48:58,  8.88s/it] 31%|███       | 1581/5155 [3:54:02<8:46:51,  8.84s/it] 31%|███       | 1582/5155 [3:54:11<8:45:24,  8.82s/it] 31%|███       | 1583/5155 [3:54:19<8:44:21,  8.81s/it] 31%|███       | 1584/5155 [3:54:29<8:49:44,  8.90s/it] 31%|███       | 1585/5155 [3:54:37<8:46:40,  8.85s/it] 31%|███       | 1586/5155 [3:54:46<8:44:31,  8.82s/it] 31%|███       | 1587/5155 [3:54:55<8:42:54,  8.79s/it] 31%|███       | 1588/5155 [3:55:04<8:43:35,  8.81s/it] 31%|███       | 1589/5155 [3:55:13<8:50:23,  8.92s/it] 31%|███       | 1590/5155 [3:55:22<8:48:18,  8.89s/it]                                                       {'loss': '0.0004415', 'grad_norm': '0.02575', 'learning_rate': '0.0001747', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '147.6', 'tokens/total': 26062848, 'tokens/trainable': 8253407, 'epoch': '1.543'}
+ 31%|███       | 1590/5155 [3:55:22<8:48:18,  8.89s/it] 31%|███       | 1591/5155 [3:55:30<8:46:30,  8.86s/it] 31%|███       | 1592/5155 [3:55:39<8:44:22,  8.83s/it] 31%|███       | 1593/5155 [3:55:48<8:49:20,  8.92s/it] 31%|███       | 1594/5155 [3:55:57<8:46:06,  8.86s/it] 31%|███       | 1595/5155 [3:56:06<8:44:19,  8.84s/it] 31%|███       | 1596/5155 [3:56:15<8:43:10,  8.82s/it] 31%|███       | 1597/5155 [3:56:23<8:42:08,  8.81s/it] 31%|███       | 1598/5155 [3:56:32<8:47:16,  8.89s/it] 31%|███       | 1599/5155 [3:56:41<8:44:19,  8.85s/it] 31%|███       | 1600/5155 [3:56:50<8:42:02,  8.81s/it]                                                       {'loss': '0.0004034', 'grad_norm': '0.006112', 'learning_rate': '0.0001743', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '134.5', 'tokens/total': 26226688, 'tokens/trainable': 8305596, 'epoch': '1.553'}
+ 31%|███       | 1600/5155 [3:56:50<8:42:02,  8.81s/it] 31%|███       | 1601/5155 [3:56:59<8:40:28,  8.79s/it] 31%|███       | 1602/5155 [3:57:08<8:46:24,  8.89s/it] 31%|███       | 1603/5155 [3:57:17<8:45:24,  8.88s/it] 31%|███       | 1604/5155 [3:57:25<8:43:39,  8.85s/it] 31%|███       | 1605/5155 [3:57:34<8:42:07,  8.82s/it] 31%|█��█       | 1606/5155 [3:57:43<8:41:02,  8.81s/it] 31%|███       | 1607/5155 [3:57:52<8:47:00,  8.91s/it] 31%|███       | 1608/5155 [3:58:01<8:43:55,  8.86s/it] 31%|███       | 1609/5155 [3:58:10<8:41:48,  8.83s/it] 31%|███       | 1610/5155 [3:58:18<8:40:09,  8.80s/it]                                                       {'loss': '0.0006456', 'grad_norm': '0.01315', 'learning_rate': '0.0001738', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '153.4', 'tokens/total': 26390528, 'tokens/trainable': 8357648, 'epoch': '1.562'}
+ 31%|███       | 1610/5155 [3:58:18<8:40:09,  8.80s/it] 31%|███▏      | 1611/5155 [3:58:27<8:45:51,  8.90s/it] 31%|███▏      | 1612/5155 [3:58:36<8:42:59,  8.86s/it] 31%|███▏      | 1613/5155 [3:58:45<8:41:28,  8.83s/it] 31%|███▏      | 1614/5155 [3:58:54<8:40:24,  8.82s/it] 31%|███▏      | 1615/5155 [3:59:03<8:39:28,  8.80s/it] 31%|███▏      | 1616/5155 [3:59:12<8:45:01,  8.90s/it] 31%|███▏      | 1617/5155 [3:59:20<8:42:10,  8.86s/it] 31%|███▏      | 1618/5155 [3:59:29<8:40:02,  8.82s/it] 31%|███▏      | 1619/5155 [3:59:38<8:38:42,  8.80s/it] 31%|███▏      | 1620/5155 [3:59:47<8:44:50,  8.91s/it]                                                       {'loss': '0.0002896', 'grad_norm': '0.002384', 'learning_rate': '0.0001733', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '142.9', 'tokens/total': 26554368, 'tokens/trainable': 8410056, 'epoch': '1.572'}
+ 31%|███▏      | 1620/5155 [3:59:47<8:44:50,  8.91s/it] 31%|███▏      | 1621/5155 [3:59:56<8:42:35,  8.87s/it] 31%|███▏      | 1622/5155 [4:00:05<8:40:51,  8.85s/it] 31%|███▏      | 1623/5155 [4:00:13<8:39:29,  8.82s/it] 32%|███▏      | 1624/5155 [4:00:22<8:37:54,  8.80s/it] 32%|███▏      | 1625/5155 [4:00:31<8:43:19,  8.89s/it] 32%|███▏      | 1626/5155 [4:00:40<8:40:51,  8.86s/it] 32%|███▏      | 1627/5155 [4:00:49<8:38:53,  8.82s/it] 32%|███▏      | 1628/5155 [4:00:58<8:37:36,  8.81s/it] 32%|███▏      | 1629/5155 [4:01:07<8:43:34,  8.91s/it] 32%|███▏      | 1630/5155 [4:01:15<8:41:02,  8.87s/it]                                                       {'loss': '0.0002504', 'grad_norm': '0.006294', 'learning_rate': '0.0001729', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '151', 'tokens/total': 26718208, 'tokens/trainable': 8461798, 'epoch': '1.582'}
+ 32%|███▏      | 1630/5155 [4:01:15<8:41:02,  8.87s/it] 32%|███▏      | 1631/5155 [4:01:24<8:38:58,  8.84s/it] 32%|███▏      | 1632/5155 [4:01:33<8:37:30,  8.81s/it] 32%|███▏      | 1633/5155 [4:01:42<8:36:28,  8.80s/it] 32%|███▏      | 1634/5155 [4:01:51<8:42:01,  8.90s/it] 32%|███▏      | 1635/5155 [4:02:00<8:38:58,  8.85s/it] 32%|███▏      | 1636/5155 [4:02:08<8:38:29,  8.84s/it] 32%|███▏      | 1637/5155 [4:02:17<8:36:23,  8.81s/it] 32%|███▏      | 1638/5155 [4:02:26<8:41:44,  8.90s/it] 32%|███▏      | 1639/5155 [4:02:35<8:39:03,  8.86s/it] 32%|███▏      | 1640/5155 [4:02:44<8:37:09,  8.83s/it]                                                       {'loss': '0.0001246', 'grad_norm': '8.703e-05', 'learning_rate': '0.0001724', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '156.1', 'tokens/total': 26882048, 'tokens/trainable': 8514035, 'epoch': '1.592'}
+ 32%|███▏      | 1640/5155 [4:02:44<8:37:09,  8.83s/it] 32%|███▏      | 1641/5155 [4:02:53<8:35:48,  8.81s/it] 32%|███▏      | 1642/5155 [4:03:01<8:34:42,  8.79s/it] 32%|███▏      | 1643/5155 [4:03:10<8:40:54,  8.90s/it] 32%|███▏      | 1644/5155 [4:03:19<8:37:56,  8.85s/it] 32%|███▏      | 1645/5155 [4:03:28<8:35:35,  8.81s/it] 32%|███▏      | 1646/5155 [4:03:37<8:33:59,  8.79s/it] 32%|███▏      | 1647/5155 [4:03:46<8:39:08,  8.88s/it] 32%|███▏      | 1648/5155 [4:03:55<8:36:33,  8.84s/it] 32%|███▏      | 1649/5155 [4:04:03<8:35:00,  8.81s/it] 32%|███▏      | 1650/5155 [4:04:12<8:33:51,  8.80s/it]                                                       {'loss': '0.0002486', 'grad_norm': '0.07624', 'learning_rate': '0.0001719', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '144.8', 'tokens/total': 27045888, 'tokens/trainable': 8565875, 'epoch': '1.601'}
+ 32%|███▏      | 1650/5155 [4:04:12<8:33:51,  8.80s/it] 32%|███▏      | 1651/5155 [4:04:21<8:32:54,  8.78s/it] 32%|███▏      | 1652/5155 [4:04:30<8:38:45,  8.89s/it] 32%|███▏      | 1653/5155 [4:04:39<8:36:20,  8.85s/it] 32%|███▏      | 1654/5155 [4:04:47<8:34:26,  8.82s/it] 32%|███▏      | 1655/5155 [4:04:56<8:32:43,  8.79s/it] 32%|███▏      | 1656/5155 [4:05:05<8:38:38,  8.89s/it] 32%|███▏      | 1657/5155 [4:05:14<8:35:53,  8.85s/it] 32%|███▏      | 1658/5155 [4:05:23<8:33:57,  8.82s/it] 32%|███▏      | 1659/5155 [4:05:32<8:33:08,  8.81s/it] 32%|███▏      | 1660/5155 [4:05:40<8:32:24,  8.80s/it]                                                       {'loss': '0.0004429', 'grad_norm': '0.02497', 'learning_rate': '0.0001715', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '144.7', 'tokens/total': 27209728, 'tokens/trainable': 8617912, 'epoch': '1.611'}
+ 32%|███▏      | 1660/5155 [4:05:40<8:32:24,  8.80s/it] 32%|███▏      | 1661/5155 [4:05:49<8:38:25,  8.90s/it] 32%|███▏      | 1662/5155 [4:05:58<8:35:50,  8.86s/it] 32%|███▏      | 1663/5155 [4:06:07<8:34:13,  8.84s/it] 32%|███▏      | 1664/5155 [4:06:16<8:33:03,  8.82s/it] 32%|███▏      | 1665/5155 [4:06:25<8:38:24,  8.91s/it] 32%|███▏      | 1666/5155 [4:06:34<8:35:21,  8.86s/it] 32%|███▏      | 1667/5155 [4:06:42<8:33:09,  8.83s/it] 32%|███▏      | 1668/5155 [4:06:51<8:31:34,  8.80s/it] 32%|███▏      | 1669/5155 [4:07:00<8:30:35,  8.79s/it] 32%|███▏      | 1670/5155 [4:07:09<8:36:41,  8.90s/it]                                                       {'loss': '0.0003105', 'grad_norm': '0.001653', 'learning_rate': '0.000171', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '135.3', 'tokens/total': 27373568, 'tokens/trainable': 8669875, 'epoch': '1.621'}
+ 32%|███▏      | 1670/5155 [4:07:09<8:36:41,  8.90s/it] 32%|███▏      | 1671/5155 [4:07:18<8:34:34,  8.86s/it] 32%|███▏      | 1672/5155 [4:07:27<8:32:46,  8.83s/it] 32%|███▏      | 1673/5155 [4:07:35<8:31:24,  8.81s/it] 32%|███▏      | 1674/5155 [4:07:44<8:36:55,  8.91s/it] 32%|███▏      | 1675/5155 [4:07:53<8:34:09,  8.86s/it] 33%|███▎      | 1676/5155 [4:08:02<8:31:53,  8.83s/it] 33%|███▎      | 1677/5155 [4:08:11<8:30:12,  8.80s/it] 33%|███▎      | 1678/5155 [4:08:19<8:28:45,  8.78s/it] 33%|███▎      | 1679/5155 [4:08:29<8:34:03,  8.87s/it] 33%|███▎      | 1680/5155 [4:08:37<8:31:52,  8.84s/it]                                                       {'loss': '0.000401', 'grad_norm': '0.02622', 'learning_rate': '0.0001705', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '160.9', 'tokens/total': 27537408, 'tokens/trainable': 8721709, 'epoch': '1.63'}
+ 33%|███▎      | 1680/5155 [4:08:37<8:31:52,  8.84s/it] 33%|███▎      | 1681/5155 [4:08:46<8:30:21,  8.81s/it] 33%|███▎      | 1682/5155 [4:08:55<8:29:22,  8.80s/it] 33%|███▎      | 1683/5155 [4:09:04<8:35:59,  8.92s/it] 33%|███▎      | 1684/5155 [4:09:13<8:32:57,  8.87s/it] 33%|███▎      | 1685/5155 [4:09:22<8:30:37,  8.83s/it] 33%|███▎      | 1686/5155 [4:09:30<8:28:53,  8.80s/it] 33%|███▎      | 1687/5155 [4:09:39<8:28:11,  8.79s/it] 33%|███▎      | 1688/5155 [4:09:48<8:34:27,  8.90s/it] 33%|███▎      | 1689/5155 [4:09:57<8:32:08,  8.87s/it] 33%|███▎      | 1690/5155 [4:10:06<8:30:24,  8.84s/it]                                                       {'loss': '0.0004247', 'grad_norm': '0.04372', 'learning_rate': '0.00017', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '148.4', 'tokens/total': 27701248, 'tokens/trainable': 8773762, 'epoch': '1.64'}
+ 33%|███▎      | 1690/5155 [4:10:06<8:30:24,  8.84s/it] 33%|███▎      | 1691/5155 [4:10:14<8:28:38,  8.81s/it] 33%|███▎      | 1692/5155 [4:10:24<8:33:43,  8.90s/it] 33%|███▎      | 1693/5155 [4:10:32<8:30:55,  8.85s/it] 33%|███▎      | 1694/5155 [4:10:41<8:28:59,  8.82s/it] 33%|███▎      | 1695/5155 [4:10:50<8:27:56,  8.81s/it] 33%|███▎      | 1696/5155 [4:10:59<8:27:20,  8.80s/it] 33%|███▎      | 1697/5155 [4:11:08<8:33:38,  8.91s/it] 33%|███▎      | 1698/5155 [4:11:17<8:31:00,  8.87s/it] 33%|███▎      | 1699/5155 [4:11:25<8:29:19,  8.84s/it] 33%|███▎      | 1700/5155 [4:11:34<8:27:55,  8.82s/it]                                                       {'loss': '0.0003858', 'grad_norm': '0.01792', 'learning_rate': '0.0001696', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '148.7', 'tokens/total': 27865088, 'tokens/trainable': 8825435, 'epoch': '1.65'}
+ 33%|███▎      | 1700/5155 [4:11:34<8:27:55,  8.82s/it] 33%|███▎      | 1701/5155 [4:11:43<8:32:58,  8.91s/it] 33%|███▎      | 1702/5155 [4:11:52<8:29:56,  8.86s/it] 33%|███▎      | 1703/5155 [4:12:01<8:27:48,  8.83s/it] 33%|███▎      | 1704/5155 [4:12:10<8:26:21,  8.80s/it] 33%|███▎      | 1705/5155 [4:12:18<8:25:39,  8.79s/it] 33%|███▎      | 1706/5155 [4:12:27<8:31:35,  8.90s/it] 33%|███▎      | 1707/5155 [4:12:36<8:29:15,  8.86s/it] 33%|███▎      | 1708/5155 [4:12:45<8:27:23,  8.83s/it] 33%|███▎      | 1709/5155 [4:12:54<8:26:13,  8.81s/it] 33%|███▎      | 1710/5155 [4:13:03<8:31:34,  8.91s/it]                                                       {'loss': '0.0003785', 'grad_norm': '0.01718', 'learning_rate': '0.0001691', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '136.3', 'tokens/total': 28028928, 'tokens/trainable': 8877227, 'epoch': '1.659'}
+ 33%|███▎      | 1710/5155 [4:13:03<8:31:34,  8.91s/it] 33%|███▎      | 1711/5155 [4:13:12<8:28:36,  8.86s/it] 33%|███▎      | 1712/5155 [4:13:20<8:26:29,  8.83s/it] 33%|███▎      | 1713/5155 [4:13:29<8:24:46,  8.80s/it] 33%|███▎      | 1714/5155 [4:13:38<8:23:22,  8.78s/it] 33%|███▎      | 1715/5155 [4:13:47<8:29:04,  8.88s/it] 33%|███▎      | 1716/5155 [4:13:56<8:26:53,  8.84s/it] 33%|███▎      | 1717/5155 [4:14:04<8:25:24,  8.82s/it] 33%|███▎      | 1718/5155 [4:14:13<8:24:01,  8.80s/it] 33%|███▎      | 1719/5155 [4:14:22<8:29:13,  8.89s/it] 33%|███▎      | 1720/5155 [4:14:31<8:26:10,  8.84s/it]                                                       {'loss': '0.0003128', 'grad_norm': '0.0343', 'learning_rate': '0.0001686', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '134.2', 'tokens/total': 28192768, 'tokens/trainable': 8928835, 'epoch': '1.669'}
+ 33%|███▎      | 1720/5155 [4:14:31<8:26:10,  8.84s/it] 33%|███▎      | 1721/5155 [4:14:40<8:24:22,  8.81s/it] 33%|███▎      | 1722/5155 [4:14:49<8:23:02,  8.79s/it] 33%|███▎      | 1723/5155 [4:14:57<8:22:42,  8.79s/it] 33%|███▎      | 1724/5155 [4:15:06<8:28:42,  8.90s/it] 33%|███▎      | 1725/5155 [4:15:15<8:26:25,  8.86s/it] 33%|███▎      | 1726/5155 [4:15:24<8:24:18,  8.82s/it] 34%|███▎      | 1727/5155 [4:15:33<8:22:47,  8.80s/it] 34%|███▎      | 1728/5155 [4:15:42<8:28:02,  8.89s/it] 34%|███▎      | 1729/5155 [4:15:51<8:25:11,  8.85s/it] 34%|███▎      | 1730/5155 [4:15:59<8:23:43,  8.82s/it]                                                       {'loss': '0.0008885', 'grad_norm': '0.008624', 'learning_rate': '0.0001681', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '148', 'tokens/total': 28356608, 'tokens/trainable': 8979863, 'epoch': '1.679'}
+ 34%|███▎      | 1730/5155 [4:15:59<8:23:43,  8.82s/it] 34%|███▎      | 1731/5155 [4:16:08<8:22:55,  8.81s/it] 34%|███▎      | 1732/5155 [4:16:17<8:22:13,  8.80s/it] 34%|███▎      | 1733/5155 [4:16:26<8:27:55,  8.91s/it] 34%|███▎      | 1734/5155 [4:16:35<8:25:37,  8.87s/it] 34%|███▎      | 1735/5155 [4:16:44<8:23:57,  8.84s/it] 34%|███▎      | 1736/5155 [4:16:52<8:22:18,  8.81s/it] 34%|███▎      | 1737/5155 [4:17:01<8:27:07,  8.90s/it] 34%|███▎      | 1738/5155 [4:17:10<8:24:13,  8.85s/it] 34%|███▎      | 1739/5155 [4:17:19<8:22:18,  8.82s/it] 34%|███▍      | 1740/5155 [4:17:28<8:20:43,  8.80s/it]                                                       {'loss': '0.0003429', 'grad_norm': '0.007138', 'learning_rate': '0.0001676', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '136.4', 'tokens/total': 28520448, 'tokens/trainable': 9031317, 'epoch': '1.688'}
+ 34%|███▍      | 1740/5155 [4:17:28<8:20:43,  8.80s/it] 34%|███▍      | 1741/5155 [4:17:36<8:20:16,  8.79s/it] 34%|███▍      | 1742/5155 [4:17:46<8:26:20,  8.90s/it] 34%|███▍      | 1743/5155 [4:17:54<8:24:02,  8.86s/it] 34%|███▍      | 1744/5155 [4:18:03<8:22:09,  8.83s/it] 34%|███▍      | 1745/5155 [4:18:12<8:21:00,  8.82s/it] 34%|███▍      | 1746/5155 [4:18:21<8:26:35,  8.92s/it] 34%|███▍      | 1747/5155 [4:18:30<8:23:23,  8.86s/it] 34%|███▍      | 1748/5155 [4:18:39<8:21:11,  8.83s/it] 34%|███▍      | 1749/5155 [4:18:47<8:19:32,  8.80s/it] 34%|███▍      | 1750/5155 [4:18:56<8:18:24,  8.78s/it]                                                       {'loss': '0.0003161', 'grad_norm': '0.006755', 'learning_rate': '0.0001671', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '166.3', 'tokens/total': 28684288, 'tokens/trainable': 9082925, 'epoch': '1.698'}
+ 34%|███▍      | 1750/5155 [4:18:56<8:18:24,  8.78s/it] 34%|███▍      | 1751/5155 [4:19:05<8:24:29,  8.89s/it] 34%|███▍      | 1752/5155 [4:19:14<8:22:24,  8.86s/it] 34%|███▍      | 1753/5155 [4:19:23<8:20:47,  8.83s/it] 34%|███▍      | 1754/5155 [4:19:32<8:19:25,  8.81s/it] 34%|███▍      | 1755/5155 [4:19:41<8:25:09,  8.91s/it] 34%|███▍      | 1756/5155 [4:19:49<8:22:16,  8.87s/it] 34%|███▍      | 1757/5155 [4:19:58<8:19:59,  8.83s/it] 34%|███▍      | 1758/5155 [4:20:07<8:18:09,  8.80s/it] 34%|███▍      | 1759/5155 [4:20:16<8:16:46,  8.78s/it] 34%|███▍      | 1760/5155 [4:20:25<8:21:54,  8.87s/it]                                                       {'loss': '0.0003932', 'grad_norm': '0.01216', 'learning_rate': '0.0001666', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '143.1', 'tokens/total': 28848128, 'tokens/trainable': 9134535, 'epoch': '1.708'}
+ 34%|███▍      | 1760/5155 [4:20:25<8:21:54,  8.87s/it] 34%|███▍      | 1761/5155 [4:20:33<8:19:54,  8.84s/it] 34%|███▍      | 1762/5155 [4:20:42<8:18:22,  8.81s/it] 34%|███▍      | 1763/5155 [4:20:51<8:17:09,  8.79s/it] 34%|███▍      | 1764/5155 [4:21:00<8:22:03,  8.88s/it] 34%|███▍      | 1765/5155 [4:21:09<8:19:17,  8.84s/it] 34%|███▍      | 1766/5155 [4:21:18<8:17:20,  8.81s/it] 34%|███▍      | 1767/5155 [4:21:26<8:15:51,  8.78s/it] 34%|███▍      | 1768/5155 [4:21:35<8:15:15,  8.77s/it] 34%|███▍      | 1769/5155 [4:21:44<8:21:04,  8.88s/it] 34%|███▍      | 1770/5155 [4:21:53<8:18:56,  8.84s/it]                                                       {'loss': '0.0003617', 'grad_norm': '0.04654', 'learning_rate': '0.0001661', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '140.1', 'tokens/total': 29011968, 'tokens/trainable': 9186666, 'epoch': '1.718'}
+ 34%|███▍      | 1770/5155 [4:21:53<8:18:56,  8.84s/it] 34%|███▍      | 1771/5155 [4:22:02<8:17:14,  8.82s/it] 34%|███▍      | 1772/5155 [4:22:10<8:16:01,  8.80s/it] 34%|███▍      | 1773/5155 [4:22:20<8:21:29,  8.90s/it] 34%|███▍      | 1774/5155 [4:22:28<8:18:27,  8.85s/it] 34%|███▍      | 1775/5155 [4:22:37<8:16:15,  8.81s/it] 34%|███▍      | 1776/5155 [4:22:46<8:14:39,  8.78s/it] 34%|███▍      | 1777/5155 [4:22:54<8:13:40,  8.77s/it] 34%|███▍      | 1778/5155 [4:23:04<8:19:15,  8.87s/it] 35%|███▍      | 1779/5155 [4:23:12<8:17:09,  8.84s/it] 35%|███▍      | 1780/5155 [4:23:21<8:15:45,  8.81s/it]                                                       {'loss': '0.0003141', 'grad_norm': '0.009639', 'learning_rate': '0.0001656', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '142.3', 'tokens/total': 29175808, 'tokens/trainable': 9238529, 'epoch': '1.727'}
+ 35%|███▍      | 1780/5155 [4:23:21<8:15:45,  8.81s/it] 35%|███▍      | 1781/5155 [4:23:30<8:14:35,  8.80s/it] 35%|███▍      | 1782/5155 [4:23:39<8:20:04,  8.90s/it] 35%|███▍      | 1783/5155 [4:23:48<8:17:28,  8.85s/it] 35%|███▍      | 1784/5155 [4:23:56<8:15:17,  8.82s/it] 35%|███▍      | 1785/5155 [4:24:05<8:13:42,  8.79s/it] 35%|███▍      | 1786/5155 [4:24:14<8:12:27,  8.77s/it] 35%|███▍      | 1787/5155 [4:24:23<8:17:23,  8.86s/it] 35%|███▍      | 1788/5155 [4:24:32<8:15:20,  8.83s/it] 35%|███▍      | 1789/5155 [4:24:40<8:14:00,  8.81s/it] 35%|███▍      | 1790/5155 [4:24:49<8:13:02,  8.79s/it]                                                       {'loss': '0.0004391', 'grad_norm': '0.01706', 'learning_rate': '0.000165', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '140.8', 'tokens/total': 29339648, 'tokens/trainable': 9290289, 'epoch': '1.737'}
+ 35%|███▍      | 1790/5155 [4:24:49<8:13:02,  8.79s/it] 35%|███▍      | 1791/5155 [4:24:58<8:18:35,  8.89s/it] 35%|███▍      | 1792/5155 [4:25:07<8:16:18,  8.85s/it] 35%|███▍      | 1793/5155 [4:25:16<8:14:40,  8.83s/it] 35%|███▍      | 1794/5155 [4:25:25<8:13:02,  8.80s/it] 35%|███▍      | 1795/5155 [4:25:33<8:11:46,  8.78s/it] 35%|███▍      | 1796/5155 [4:25:42<8:16:48,  8.87s/it] 35%|███▍      | 1797/5155 [4:25:51<8:14:09,  8.83s/it] 35%|███▍      | 1798/5155 [4:26:00<8:12:42,  8.81s/it] 35%|███▍      | 1799/5155 [4:26:09<8:11:48,  8.79s/it] 35%|███▍      | 1800/5155 [4:26:18<8:17:18,  8.89s/it]                                                       {'loss': '0.0003238', 'grad_norm': '0.00228', 'learning_rate': '0.0001645', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '137.3', 'tokens/total': 29503488, 'tokens/trainable': 9341953, 'epoch': '1.747'}
+ 35%|███▍      | 1800/5155 [4:26:18<8:17:18,  8.89s/it] 35%|███▍      | 1801/5155 [4:26:27<8:14:44,  8.85s/it] 35%|███▍      | 1802/5155 [4:26:35<8:12:48,  8.82s/it] 35%|███▍      | 1803/5155 [4:26:44<8:11:28,  8.80s/it] 35%|███▍      | 1804/5155 [4:26:53<8:10:11,  8.78s/it] 35%|███▌      | 1805/5155 [4:27:02<8:15:52,  8.88s/it] 35%|███▌      | 1806/5155 [4:27:11<8:13:25,  8.84s/it] 35%|███▌      | 1807/5155 [4:27:19<8:11:45,  8.81s/it] 35%|███▌      | 1808/5155 [4:27:28<8:10:53,  8.80s/it] 35%|███▌      | 1809/5155 [4:27:37<8:16:25,  8.90s/it] 35%|███▌      | 1810/5155 [4:27:46<8:14:16,  8.87s/it]                                                       {'loss': '0.0006712', 'grad_norm': '0.003684', 'learning_rate': '0.000164', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '163.6', 'tokens/total': 29667328, 'tokens/trainable': 9393126, 'epoch': '1.756'}
+ 35%|███▌      | 1810/5155 [4:27:46<8:14:16,  8.87s/it] 35%|███▌      | 1811/5155 [4:27:55<8:12:37,  8.84s/it] 35%|███▌      | 1812/5155 [4:28:04<8:11:16,  8.82s/it] 35%|███▌      | 1813/5155 [4:28:12<8:10:06,  8.80s/it] 35%|███▌      | 1814/5155 [4:28:21<8:14:52,  8.89s/it] 35%|███▌      | 1815/5155 [4:28:30<8:11:56,  8.84s/it] 35%|███▌      | 1816/5155 [4:28:39<8:09:59,  8.80s/it] 35%|███▌      | 1817/5155 [4:28:48<8:08:38,  8.78s/it] 35%|███▌      | 1818/5155 [4:28:57<8:14:10,  8.89s/it] 35%|███▌      | 1819/5155 [4:29:06<8:11:54,  8.85s/it] 35%|███▌      | 1820/5155 [4:29:14<8:10:24,  8.82s/it]                                                       {'loss': '0.0001048', 'grad_norm': '0.0006454', 'learning_rate': '0.0001635', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '147', 'tokens/total': 29831168, 'tokens/trainable': 9444494, 'epoch': '1.766'}
+ 35%|███▌      | 1820/5155 [4:29:14<8:10:24,  8.82s/it] 35%|███▌      | 1821/5155 [4:29:23<8:09:12,  8.80s/it] 35%|███▌      | 1822/5155 [4:29:32<8:08:15,  8.79s/it] 35%|███▌      | 1823/5155 [4:29:41<8:13:45,  8.89s/it] 35%|███▌      | 1824/5155 [4:29:50<8:10:58,  8.84s/it] 35%|███▌      | 1825/5155 [4:29:58<8:09:01,  8.81s/it] 35%|███▌      | 1826/5155 [4:30:07<8:07:34,  8.79s/it] 35%|███▌      | 1827/5155 [4:30:16<8:12:43,  8.88s/it] 35%|███▌      | 1828/5155 [4:30:25<8:10:41,  8.85s/it] 35%|███▌      | 1829/5155 [4:30:34<8:09:10,  8.82s/it] 35%|███▌      | 1830/5155 [4:30:43<8:08:28,  8.81s/it]                                                       {'loss': '0.0003427', 'grad_norm': '0.03547', 'learning_rate': '0.000163', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '147.8', 'tokens/total': 29995008, 'tokens/trainable': 9496432, 'epoch': '1.776'}
+ 35%|███▌      | 1830/5155 [4:30:43<8:08:28,  8.81s/it] 36%|███▌      | 1831/5155 [4:30:51<8:07:24,  8.80s/it] 36%|███▌      | 1832/5155 [4:31:01<8:13:02,  8.90s/it] 36%|███▌      | 1833/5155 [4:31:09<8:10:23,  8.86s/it] 36%|███▌      | 1834/5155 [4:31:18<8:08:16,  8.82s/it] 36%|███▌      | 1835/5155 [4:31:27<8:06:43,  8.80s/it] 36%|███▌      | 1836/5155 [4:31:36<8:12:31,  8.90s/it] 36%|███▌      | 1837/5155 [4:31:45<8:09:53,  8.86s/it] 36%|███▌      | 1838/5155 [4:31:53<8:08:17,  8.83s/it] 36%|███▌      | 1839/5155 [4:32:02<8:07:20,  8.82s/it] 36%|███▌      | 1840/5155 [4:32:11<8:06:44,  8.81s/it]                                                       {'loss': '0.0004897', 'grad_norm': '0.004228', 'learning_rate': '0.0001624', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '150.1', 'tokens/total': 30158848, 'tokens/trainable': 9547913, 'epoch': '1.785'}
+ 36%|███▌      | 1840/5155 [4:32:11<8:06:44,  8.81s/it] 36%|███▌      | 1841/5155 [4:32:20<8:12:02,  8.91s/it] 36%|███▌      | 1842/5155 [4:32:29<8:09:43,  8.87s/it] 36%|███▌      | 1843/5155 [4:32:38<8:07:57,  8.84s/it] 36%|███▌      | 1844/5155 [4:32:46<8:06:20,  8.81s/it] 36%|███▌      | 1845/5155 [4:32:56<8:11:11,  8.90s/it] 36%|███▌      | 1846/5155 [4:33:04<8:08:21,  8.86s/it] 36%|███▌      | 1847/5155 [4:33:13<8:06:24,  8.82s/it] 36%|███▌      | 1848/5155 [4:33:22<8:05:26,  8.81s/it] 36%|███▌      | 1849/5155 [4:33:31<8:04:51,  8.80s/it] 36%|███▌      | 1850/5155 [4:33:40<8:10:37,  8.91s/it]                                                       {'loss': '0.0003711', 'grad_norm': '0.008338', 'learning_rate': '0.0001619', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '142.4', 'tokens/total': 30322688, 'tokens/trainable': 9599023, 'epoch': '1.795'}
+ 36%|███▌      | 1850/5155 [4:33:40<8:10:37,  8.91s/it] 36%|███▌      | 1851/5155 [4:33:49<8:08:01,  8.86s/it] 36%|███▌      | 1852/5155 [4:33:57<8:05:59,  8.83s/it] 36%|███▌      | 1853/5155 [4:34:06<8:04:34,  8.80s/it] 36%|███▌      | 1854/5155 [4:34:15<8:09:44,  8.90s/it] 36%|███▌      | 1855/5155 [4:34:24<8:07:15,  8.86s/it] 36%|███▌      | 1856/5155 [4:34:33<8:05:44,  8.83s/it] 36%|███▌      | 1857/5155 [4:34:41<8:04:46,  8.82s/it] 36%|███▌      | 1858/5155 [4:34:50<8:03:55,  8.81s/it] 36%|███▌      | 1859/5155 [4:34:59<8:09:27,  8.91s/it] 36%|███▌      | 1860/5155 [4:35:08<8:07:09,  8.87s/it]                                                       {'loss': '0.0005191', 'grad_norm': '0.03346', 'learning_rate': '0.0001614', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '143.5', 'tokens/total': 30486528, 'tokens/trainable': 9651048, 'epoch': '1.805'}
+ 36%|███▌      | 1860/5155 [4:35:08<8:07:09,  8.87s/it] 36%|███▌      | 1861/5155 [4:35:17<8:05:14,  8.84s/it] 36%|███▌      | 1862/5155 [4:35:26<8:03:42,  8.81s/it] 36%|███▌      | 1863/5155 [4:35:35<8:08:50,  8.91s/it] 36%|███▌      | 1864/5155 [4:35:44<8:05:57,  8.86s/it] 36%|███▌      | 1865/5155 [4:35:52<8:04:15,  8.83s/it] 36%|███▌      | 1866/5155 [4:36:01<8:03:21,  8.82s/it] 36%|███▌      | 1867/5155 [4:36:10<8:02:18,  8.80s/it] 36%|███▌      | 1868/5155 [4:36:19<8:07:34,  8.90s/it] 36%|███▋      | 1869/5155 [4:36:28<8:04:45,  8.85s/it] 36%|███▋      | 1870/5155 [4:36:36<8:02:41,  8.82s/it]                                                       {'loss': '0.0002689', 'grad_norm': '0.01481', 'learning_rate': '0.0001608', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '145.2', 'tokens/total': 30650368, 'tokens/trainable': 9703354, 'epoch': '1.815'}
+ 36%|███▋      | 1870/5155 [4:36:36<8:02:41,  8.82s/it] 36%|███▋      | 1871/5155 [4:36:45<8:01:18,  8.79s/it] 36%|███▋      | 1872/5155 [4:36:54<8:06:15,  8.89s/it] 36%|███▋      | 1873/5155 [4:37:03<8:04:02,  8.85s/it] 36%|███▋      | 1874/5155 [4:37:12<8:02:27,  8.82s/it] 36%|███▋      | 1875/5155 [4:37:21<8:01:12,  8.80s/it] 36%|███▋      | 1876/5155 [4:37:29<8:00:19,  8.79s/it] 36%|███▋      | 1877/5155 [4:37:38<8:05:55,  8.89s/it] 36%|███▋      | 1878/5155 [4:37:47<8:03:18,  8.85s/it] 36%|███▋      | 1879/5155 [4:37:56<8:01:14,  8.81s/it] 36%|███▋      | 1880/5155 [4:38:05<7:59:49,  8.79s/it]                                                       {'loss': '0.0003055', 'grad_norm': '0.01183', 'learning_rate': '0.0001603', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '140.5', 'tokens/total': 30814208, 'tokens/trainable': 9755371, 'epoch': '1.824'}
+ 36%|███▋      | 1880/5155 [4:38:05<7:59:49,  8.79s/it] 36%|███▋      | 1881/5155 [4:38:14<8:05:07,  8.89s/it] 37%|███▋      | 1882/5155 [4:38:23<8:02:36,  8.85s/it] 37%|███▋      | 1883/5155 [4:38:31<8:01:24,  8.83s/it] 37%|███▋      | 1884/5155 [4:38:40<8:00:29,  8.81s/it] 37%|███▋      | 1885/5155 [4:38:49<7:59:44,  8.80s/it] 37%|███▋      | 1886/5155 [4:38:58<8:04:43,  8.90s/it] 37%|███▋      | 1887/5155 [4:39:07<8:02:07,  8.85s/it] 37%|███▋      | 1888/5155 [4:39:16<8:00:16,  8.82s/it] 37%|███▋      | 1889/5155 [4:39:24<7:59:01,  8.80s/it] 37%|███▋      | 1890/5155 [4:39:33<8:04:21,  8.90s/it]                                                       {'loss': '0.0002303', 'grad_norm': '0.003898', 'learning_rate': '0.0001598', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '138.9', 'tokens/total': 30978048, 'tokens/trainable': 9807011, 'epoch': '1.834'}
+ 37%|███▋      | 1890/5155 [4:39:33<8:04:21,  8.90s/it] 37%|███▋      | 1891/5155 [4:39:42<8:02:20,  8.87s/it] 37%|███▋      | 1892/5155 [4:39:51<8:00:48,  8.84s/it] 37%|███▋      | 1893/5155 [4:40:00<7:59:38,  8.82s/it] 37%|███▋      | 1894/5155 [4:40:09<7:58:50,  8.81s/it] 37%|███▋      | 1895/5155 [4:40:18<8:04:24,  8.92s/it] 37%|███▋      | 1896/5155 [4:40:26<8:01:32,  8.87s/it] 37%|███▋      | 1897/5155 [4:40:35<7:59:28,  8.83s/it] 37%|███▋      | 1898/5155 [4:40:44<7:58:01,  8.81s/it] 37%|███▋      | 1899/5155 [4:40:53<8:03:01,  8.90s/it] 37%|███▋      | 1900/5155 [4:41:02<8:01:13,  8.87s/it]                                                       {'loss': '0.0004148', 'grad_norm': '0.009937', 'learning_rate': '0.0001592', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '144.2', 'tokens/total': 31141888, 'tokens/trainable': 9859849, 'epoch': '1.844'}
+ 37%|███▋      | 1900/5155 [4:41:02<8:01:13,  8.87s/it] 37%|███▋      | 1901/5155 [4:41:11<7:59:38,  8.84s/it] 37%|███▋      | 1902/5155 [4:41:19<7:58:35,  8.83s/it] 37%|███▋      | 1903/5155 [4:41:28<7:57:27,  8.81s/it] 37%|███▋      | 1904/5155 [4:41:37<8:02:52,  8.91s/it] 37%|███▋      | 1905/5155 [4:41:46<8:00:19,  8.87s/it] 37%|███▋      | 1906/5155 [4:41:55<7:58:18,  8.83s/it] 37%|███▋      | 1907/5155 [4:42:04<7:56:51,  8.81s/it] 37%|███▋      | 1908/5155 [4:42:13<8:01:44,  8.90s/it] 37%|███▋      | 1909/5155 [4:42:22<7:59:16,  8.86s/it] 37%|███▋      | 1910/5155 [4:42:30<7:57:51,  8.84s/it]                                                       {'loss': '0.0004666', 'grad_norm': '0.007156', 'learning_rate': '0.0001587', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '141.6', 'tokens/total': 31305728, 'tokens/trainable': 9911712, 'epoch': '1.853'}
+ 37%|███▋      | 1910/5155 [4:42:30<7:57:51,  8.84s/it] 37%|███▋      | 1911/5155 [4:42:39<7:56:55,  8.82s/it] 37%|███▋      | 1912/5155 [4:42:48<7:56:08,  8.81s/it] 37%|███▋      | 1913/5155 [4:42:57<8:00:32,  8.89s/it] 37%|███▋      | 1914/5155 [4:43:06<7:58:01,  8.85s/it] 37%|███▋      | 1915/5155 [4:43:14<7:56:25,  8.82s/it] 37%|███▋      | 1916/5155 [4:43:23<7:55:06,  8.80s/it] 37%|███▋      | 1917/5155 [4:43:32<8:00:05,  8.90s/it] 37%|███▋      | 1918/5155 [4:43:41<7:57:54,  8.86s/it] 37%|███▋      | 1919/5155 [4:43:50<7:56:33,  8.84s/it] 37%|███▋      | 1920/5155 [4:43:59<7:55:12,  8.81s/it]                                                       {'loss': '0.0004625', 'grad_norm': '0.02114', 'learning_rate': '0.0001581', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '148.1', 'tokens/total': 31469568, 'tokens/trainable': 9963813, 'epoch': '1.863'}
+ 37%|███▋      | 1920/5155 [4:43:59<7:55:12,  8.81s/it] 37%|███▋      | 1921/5155 [4:44:07<7:53:57,  8.79s/it] 37%|███▋      | 1922/5155 [4:44:17<7:59:09,  8.89s/it] 37%|███▋      | 1923/5155 [4:44:25<7:56:24,  8.84s/it] 37%|███▋      | 1924/5155 [4:44:34<7:54:34,  8.81s/it] 37%|███▋      | 1925/5155 [4:44:43<7:53:48,  8.80s/it] 37%|███▋      | 1926/5155 [4:44:52<7:59:30,  8.91s/it] 37%|███▋      | 1927/5155 [4:45:01<7:57:03,  8.87s/it] 37%|███▋      | 1928/5155 [4:45:09<7:55:25,  8.84s/it] 37%|███▋      | 1929/5155 [4:45:18<7:54:13,  8.82s/it] 37%|███▋      | 1930/5155 [4:45:27<7:53:11,  8.80s/it]                                                       {'loss': '0.000492', 'grad_norm': '0.002334', 'learning_rate': '0.0001576', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '158', 'tokens/total': 31633408, 'tokens/trainable': 10015724, 'epoch': '1.873'}
+ 37%|███▋      | 1930/5155 [4:45:27<7:53:11,  8.80s/it] 37%|███▋      | 1931/5155 [4:45:36<7:57:54,  8.89s/it] 37%|███▋      | 1932/5155 [4:45:45<7:55:32,  8.85s/it] 37%|███▋      | 1933/5155 [4:45:54<7:53:48,  8.82s/it] 38%|███▊      | 1934/5155 [4:46:02<7:52:39,  8.80s/it] 38%|███▊      | 1935/5155 [4:46:12<7:57:53,  8.90s/it] 38%|███▊      | 1936/5155 [4:46:20<7:55:37,  8.87s/it] 38%|███▊      | 1937/5155 [4:46:29<7:54:04,  8.84s/it] 38%|███▊      | 1938/5155 [4:46:38<7:52:33,  8.81s/it] 38%|███���      | 1939/5155 [4:46:47<7:51:30,  8.80s/it] 38%|███▊      | 1940/5155 [4:46:56<7:56:35,  8.89s/it]                                                       {'loss': '0.0002394', 'grad_norm': '0.01152', 'learning_rate': '0.000157', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '143.2', 'tokens/total': 31797248, 'tokens/trainable': 10067073, 'epoch': '1.882'}
+ 38%|███▊      | 1940/5155 [4:46:56<7:56:35,  8.89s/it] 38%|███▊      | 1941/5155 [4:47:04<7:54:33,  8.86s/it] 38%|███▊      | 1942/5155 [4:47:13<7:52:52,  8.83s/it] 38%|███▊      | 1943/5155 [4:47:22<7:52:05,  8.82s/it] 38%|███▊      | 1944/5155 [4:47:31<7:57:43,  8.93s/it] 38%|███▊      | 1945/5155 [4:47:40<7:55:12,  8.88s/it] 38%|███▊      | 1946/5155 [4:47:49<7:53:27,  8.85s/it] 38%|███▊      | 1947/5155 [4:47:58<7:52:11,  8.83s/it] 38%|███▊      | 1948/5155 [4:48:06<7:50:48,  8.81s/it] 38%|███▊      | 1949/5155 [4:48:15<7:55:47,  8.90s/it] 38%|███▊      | 1950/5155 [4:48:24<7:53:25,  8.86s/it]                                                       {'loss': '0.0002183', 'grad_norm': '0.01654', 'learning_rate': '0.0001565', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '144.8', 'tokens/total': 31961088, 'tokens/trainable': 10119393, 'epoch': '1.892'}
+ 38%|███▊      | 1950/5155 [4:48:24<7:53:25,  8.86s/it] 38%|███▊      | 1951/5155 [4:48:33<7:51:44,  8.83s/it] 38%|███▊      | 1952/5155 [4:48:42<7:50:45,  8.82s/it] 38%|███▊      | 1953/5155 [4:48:51<7:56:35,  8.93s/it] 38%|███▊      | 1954/5155 [4:49:00<7:53:53,  8.88s/it] 38%|███▊      | 1955/5155 [4:49:08<7:52:07,  8.85s/it] 38%|███▊      | 1956/5155 [4:49:17<7:50:24,  8.82s/it] 38%|███▊      | 1957/5155 [4:49:26<7:49:14,  8.80s/it] 38%|███▊      | 1958/5155 [4:49:35<7:54:11,  8.90s/it] 38%|███▊      | 1959/5155 [4:49:44<7:51:55,  8.86s/it] 38%|███▊      | 1960/5155 [4:49:53<7:50:18,  8.83s/it]                                                       {'loss': '0.0001786', 'grad_norm': '0.003413', 'learning_rate': '0.0001559', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '142.3', 'tokens/total': 32124928, 'tokens/trainable': 10171930, 'epoch': '1.902'}
+ 38%|███▊      | 1960/5155 [4:49:53<7:50:18,  8.83s/it] 38%|███▊      | 1961/5155 [4:50:01<7:49:18,  8.82s/it] 38%|███▊      | 1962/5155 [4:50:11<7:54:27,  8.92s/it] 38%|███▊      | 1963/5155 [4:50:19<7:51:51,  8.87s/it] 38%|███▊      | 1964/5155 [4:50:28<7:49:49,  8.83s/it] 38%|███▊      | 1965/5155 [4:50:37<7:48:27,  8.81s/it] 38%|███▊      | 1966/5155 [4:50:46<7:47:12,  8.79s/it] 38%|███▊      | 1967/5155 [4:50:55<7:52:15,  8.89s/it] 38%|███▊      | 1968/5155 [4:51:04<7:50:19,  8.85s/it] 38%|███▊      | 1969/5155 [4:51:12<7:48:53,  8.83s/it] 38%|███▊      | 1970/5155 [4:51:21<7:47:53,  8.81s/it]                                                       {'loss': '0.0001414', 'grad_norm': '0.02399', 'learning_rate': '0.0001553', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '155.9', 'tokens/total': 32288768, 'tokens/trainable': 10223639, 'epoch': '1.912'}
+ 38%|███▊      | 1970/5155 [4:51:21<7:47:53,  8.81s/it] 38%|███▊      | 1971/5155 [4:51:30<7:53:14,  8.92s/it] 38%|███▊      | 1972/5155 [4:51:39<7:50:55,  8.88s/it] 38%|███▊      | 1973/5155 [4:51:48<7:48:46,  8.84s/it] 38%|███▊      | 1974/5155 [4:51:56<7:47:00,  8.81s/it] 38%|███▊      | 1975/5155 [4:52:05<7:45:50,  8.79s/it] 38%|███▊      | 1976/5155 [4:52:14<7:50:49,  8.89s/it] 38%|███▊      | 1977/5155 [4:52:23<7:48:31,  8.85s/it] 38%|███▊      | 1978/5155 [4:52:32<7:49:05,  8.86s/it] 38%|███▊      | 1979/5155 [4:52:41<7:47:30,  8.83s/it] 38%|███▊      | 1980/5155 [4:52:50<7:52:10,  8.92s/it]                                                       {'loss': '0.0001141', 'grad_norm': '0.0007366', 'learning_rate': '0.0001548', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '134.5', 'tokens/total': 32452608, 'tokens/trainable': 10275019, 'epoch': '1.921'}
+ 38%|███▊      | 1980/5155 [4:52:50<7:52:10,  8.92s/it] 38%|███▊      | 1981/5155 [4:52:59<7:49:38,  8.88s/it] 38%|███▊      | 1982/5155 [4:53:07<7:47:51,  8.85s/it] 38%|███▊      | 1983/5155 [4:53:16<7:46:31,  8.82s/it] 38%|███▊      | 1984/5155 [4:53:25<7:45:03,  8.80s/it] 39%|███▊      | 1985/5155 [4:53:34<7:50:04,  8.90s/it] 39%|███▊      | 1986/5155 [4:53:43<7:47:41,  8.85s/it] 39%|███▊      | 1987/5155 [4:53:52<7:45:44,  8.82s/it] 39%|███▊      | 1988/5155 [4:54:00<7:44:55,  8.81s/it] 39%|███▊      | 1989/5155 [4:54:09<7:50:11,  8.91s/it] 39%|███▊      | 1990/5155 [4:54:18<7:47:49,  8.87s/it]                                                       {'loss': '0.0004076', 'grad_norm': '0.02832', 'learning_rate': '0.0001542', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '146.8', 'tokens/total': 32616448, 'tokens/trainable': 10327234, 'epoch': '1.931'}
+ 39%|███▊      | 1990/5155 [4:54:18<7:47:49,  8.87s/it] 39%|███▊      | 1991/5155 [4:54:27<7:46:05,  8.84s/it] 39%|███▊      | 1992/5155 [4:54:36<7:44:55,  8.82s/it] 39%|███▊      | 1993/5155 [4:54:45<7:44:06,  8.81s/it] 39%|███▊      | 1994/5155 [4:54:54<7:49:05,  8.90s/it] 39%|███▊      | 1995/5155 [4:55:02<7:46:40,  8.86s/it] 39%|███▊      | 1996/5155 [4:55:11<7:45:03,  8.83s/it] 39%|███▊      | 1997/5155 [4:55:20<7:43:35,  8.81s/it] 39%|███▉      | 1998/5155 [4:55:29<7:48:15,  8.90s/it] 39%|███▉      | 1999/5155 [4:55:38<7:46:09,  8.86s/it] 39%|███▉      | 2000/5155 [4:55:47<7:44:28,  8.83s/it]                                                       {'loss': '0.0002287', 'grad_norm': '0.0007217', 'learning_rate': '0.0001536', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '147.7', 'tokens/total': 32780288, 'tokens/trainable': 10379906, 'epoch': '1.941'}
+ 39%|███▉      | 2000/5155 [4:55:47<7:44:28,  8.83s/it] 39%|███▉      | 2001/5155 [4:55:55<7:43:15,  8.81s/it] 39%|███▉      | 2002/5155 [4:56:05<7:48:27,  8.91s/it] 39%|███▉      | 2003/5155 [4:56:13<7:45:52,  8.87s/it] 39%|███▉      | 2004/5155 [4:56:22<7:43:48,  8.83s/it] 39%|███▉      | 2005/5155 [4:56:31<7:42:32,  8.81s/it] 39%|███▉      | 2006/5155 [4:56:40<7:41:25,  8.79s/it] 39%|███▉      | 2007/5155 [4:56:49<7:46:12,  8.89s/it] 39%|███▉      | 2008/5155 [4:56:57<7:44:18,  8.85s/it] 39%|███▉      | 2009/5155 [4:57:06<7:43:07,  8.83s/it] 39%|███▉      | 2010/5155 [4:57:15<7:42:15,  8.82s/it]                                                       {'loss': '0.0006855', 'grad_norm': '0.02139', 'learning_rate': '0.0001531', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '137.5', 'tokens/total': 32944128, 'tokens/trainable': 10431864, 'epoch': '1.95'}
+ 39%|███▉      | 2010/5155 [4:57:15<7:42:15,  8.82s/it] 39%|███▉      | 2011/5155 [4:57:24<7:41:25,  8.81s/it] 39%|███▉      | 2012/5155 [4:57:33<7:46:43,  8.91s/it] 39%|███▉      | 2013/5155 [4:57:42<7:46:28,  8.91s/it] 39%|███▉      | 2014/5155 [4:57:51<7:43:50,  8.86s/it] 39%|███▉      | 2015/5155 [4:57:59<7:42:14,  8.83s/it] 39%|███▉      | 2016/5155 [4:58:08<7:46:32,  8.92s/it] 39%|███▉      | 2017/5155 [4:58:17<7:43:59,  8.87s/it] 39%|███▉      | 2018/5155 [4:58:26<7:42:14,  8.84s/it] 39%|███▉      | 2019/5155 [4:58:35<7:40:56,  8.82s/it] 39%|███▉      | 2020/5155 [4:58:44<7:40:00,  8.80s/it]                                                       {'loss': '0.0002099', 'grad_norm': '0.01441', 'learning_rate': '0.0001525', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '143.2', 'tokens/total': 33107968, 'tokens/trainable': 10483503, 'epoch': '1.96'}
+ 39%|███▉      | 2020/5155 [4:58:44<7:40:00,  8.80s/it] 39%|███▉      | 2021/5155 [4:58:53<7:45:22,  8.91s/it] 39%|███▉      | 2022/5155 [4:59:02<7:43:14,  8.87s/it] 39%|███▉      | 2023/5155 [4:59:10<7:41:23,  8.84s/it] 39%|███▉      | 2024/5155 [4:59:19<7:39:48,  8.81s/it] 39%|███▉      | 2025/5155 [4:59:28<7:44:27,  8.90s/it] 39%|███▉      | 2026/5155 [4:59:37<7:41:58,  8.86s/it] 39%|███▉      | 2027/5155 [4:59:46<7:40:14,  8.83s/it] 39%|███▉      | 2028/5155 [4:59:54<7:39:19,  8.81s/it] 39%|███▉      | 2029/5155 [5:00:03<7:38:50,  8.81s/it] 39%|███▉      | 2030/5155 [5:00:12<7:44:08,  8.91s/it]                                                       {'loss': '0.0002952', 'grad_norm': '0.001918', 'learning_rate': '0.0001519', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '153.2', 'tokens/total': 33271808, 'tokens/trainable': 10534682, 'epoch': '1.97'}
+ 39%|███���      | 2030/5155 [5:00:12<7:44:08,  8.91s/it] 39%|███▉      | 2031/5155 [5:00:21<7:42:03,  8.87s/it] 39%|███▉      | 2032/5155 [5:00:30<7:40:28,  8.85s/it] 39%|███▉      | 2033/5155 [5:00:39<7:38:58,  8.82s/it] 39%|███▉      | 2034/5155 [5:00:48<7:43:35,  8.91s/it] 39%|███▉      | 2035/5155 [5:00:57<7:40:58,  8.87s/it] 39%|███▉      | 2036/5155 [5:01:05<7:39:08,  8.83s/it] 40%|███▉      | 2037/5155 [5:01:14<7:37:43,  8.81s/it] 40%|███▉      | 2038/5155 [5:01:23<7:37:10,  8.80s/it] 40%|███▉      | 2039/5155 [5:01:32<7:42:42,  8.91s/it] 40%|███▉      | 2040/5155 [5:01:41<7:40:17,  8.87s/it]                                                       {'loss': '0.0003023', 'grad_norm': '0.02791', 'learning_rate': '0.0001513', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '135.2', 'tokens/total': 33435648, 'tokens/trainable': 10586848, 'epoch': '1.979'}
+ 40%|███▉      | 2040/5155 [5:01:41<7:40:17,  8.87s/it] 40%|███▉      | 2041/5155 [5:01:50<7:38:24,  8.83s/it] 40%|███▉      | 2042/5155 [5:01:58<7:36:58,  8.81s/it] 40%|███▉      | 2043/5155 [5:02:07<7:41:48,  8.90s/it] 40%|███▉      | 2044/5155 [5:02:16<7:39:24,  8.86s/it] 40%|███▉      | 2045/5155 [5:02:25<7:38:04,  8.84s/it] 40%|███▉      | 2046/5155 [5:02:34<7:37:05,  8.82s/it] 40%|███▉      | 2047/5155 [5:02:43<7:36:13,  8.81s/it] 40%|███▉      | 2048/5155 [5:02:52<7:41:10,  8.91s/it] 40%|███▉      | 2049/5155 [5:03:00<7:38:55,  8.87s/it] 40%|███▉      | 2050/5155 [5:03:09<7:37:23,  8.84s/it]                                                       {'loss': '0.0001167', 'grad_norm': '0.03078', 'learning_rate': '0.0001507', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '142.3', 'tokens/total': 33599488, 'tokens/trainable': 10638485, 'epoch': '1.989'}
+ 40%|███▉      | 2050/5155 [5:03:09<7:37:23,  8.84s/it] 40%|███▉      | 2051/5155 [5:03:18<7:36:41,  8.83s/it] 40%|███▉      | 2052/5155 [5:03:27<7:41:04,  8.92s/it] 40%|███▉      | 2053/5155 [5:03:36<7:38:44,  8.87s/it] 40%|███▉      | 2054/5155 [5:03:45<7:37:29,  8.85s/it] 40%|███▉      | 2055/5155 [5:03:54<7:36:26,  8.83s/it] 40%|███▉      | 2056/5155 [5:04:02<7:35:33,  8.82s/it] 40%|███▉      | 2057/5155 [5:04:11<7:40:51,  8.93s/it] 40%|███▉      | 2058/5155 [5:04:20<7:38:33,  8.88s/it] 40%|███▉      | 2059/5155 [5:04:29<7:36:41,  8.85s/it] 40%|███▉      | 2060/5155 [5:04:38<7:35:01,  8.82s/it]                                                       {'loss': '0.0003703', 'grad_norm': '0.05458', 'learning_rate': '0.0001502', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '148.1', 'tokens/total': 33763328, 'tokens/trainable': 10689855, 'epoch': '1.999'}
+ 40%|███▉      | 2060/5155 [5:04:38<7:35:01,  8.82s/it] 40%|███▉      | 2061/5155 [5:04:55<9:48:12, 11.41s/it] 40%|████      | 2062/5155 [5:05:04<9:07:20, 10.62s/it][2026-02-26 04:25:50,781] [INFO] [axolotl.core.trainers.base._save:721] [PID:2758243] Saving model checkpoint to /home/jiaruil5/math_rl/mix_teachers/r3lit_rl/mix_teachers/checkpoints/math_operations/primitive_atomic_balanced_sft_50k/checkpoint-2062
+ 40%|████      | 2063/5155 [5:05:15<9:08:47, 10.65s/it] 40%|████      | 2064/5155 [5:05:23<8:39:40, 10.09s/it][2026-02-26 04:26:10,254] [INFO] [axolotl.core.trainers.base.evaluate:400] [PID:2758243] Running evaluation step...
+[2026-02-26 04:26:11,531] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.5991637706756592
+[2026-02-26 04:26:12,131] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.5992527008056641
+[2026-02-26 04:26:12,736] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.6048882007598877
+[2026-02-26 04:26:13,334] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.5980563163757324
+[2026-02-26 04:26:13,335] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:2758243] gather_len_batches: [17]
+
+  0%|          | 0/17 [00:00<?, ?it/s][A
+ 12%|█▏        | 2/17 [00:00<00:04,  3.21it/s][A
+ 18%|█▊        | 3/17 [00:01<00:06,  2.26it/s][A
+ 24%|██▎       | 4/17 [00:01<00:06,  1.95it/s][A
+ 29%|██▉       | 5/17 [00:02<00:06,  1.73it/s][A
+ 35%|███▌      | 6/17 [00:03<00:06,  1.69it/s][A
+ 41%|████      | 7/17 [00:03<00:06,  1.66it/s][A
+ 47%|████▋     | 8/17 [00:04<00:05,  1.64it/s][A
+ 53%|█████▎    | 9/17 [00:05<00:06,  1.33it/s][A
+ 59%|█████▉    | 10/17 [00:06<00:04,  1.41it/s][A
+ 65%|██████▍   | 11/17 [00:06<00:04,  1.46it/s][A
+ 71%|███████   | 12/17 [00:07<00:03,  1.50it/s][A
+ 76%|███████▋  | 13/17 [00:08<00:02,  1.37it/s][A
+ 82%|████████▏ | 14/17 [00:08<00:02,  1.43it/s][A
+ 88%|████████▊ | 15/17 [00:09<00:01,  1.48it/s][A
+ 94%|█████████▍| 16/17 [00:10<00:00,  1.51it/s][A
+100%|██████████| 17/17 [00:10<00:00,  1.67it/s][A                                                       
+                                               [A{'eval_loss': '0.0003274', 'eval_runtime': '12.13', 'eval_samples_per_second': '16.48', 'eval_steps_per_second': '8.241', 'eval_ppl': '1', 'memory/max_active (GiB)': '16.73', 'memory/max_allocated (GiB)': '16.73', 'memory/device_reserved (GiB)': '20.01', 'epoch': '2.004', 'tokens/train_per_sec_per_gpu': '141'}
+ 40%|████      | 2064/5155 [5:05:39<8:39:40, 10.09s/it]
+100%|██████████| 17/17 [00:10<00:00,  1.67it/s][A
+                                               [A 40%|████      | 2065/5155 [5:05:48<12:20:42, 14.38s/it] 40%|████      | 2066/5155 [5:05:57<10:52:48, 12.68s/it] 40%|████      | 2067/5155 [5:06:05<9:51:18, 11.49s/it]  40%|████      | 2068/5155 [5:06:14<9:08:26, 10.66s/it] 40%|████      | 2069/5155 [5:06:23<8:45:48, 10.22s/it] 40%|████      | 2070/5155 [5:06:32<8:22:52,  9.78s/it]                                                       {'loss': '0.0006259', 'grad_norm': '0.02574', 'learning_rate': '0.0001496', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '152.7', 'tokens/total': 33939456, 'tokens/trainable': 10745674, 'epoch': '2.01'}
+ 40%|████      | 2070/5155 [5:06:32<8:22:52,  9.78s/it] 40%|████      | 2071/5155 [5:06:41<8:06:32,  9.47s/it] 40%|████      | 2072/5155 [5:06:49<7:55:04,  9.25s/it] 40%|████      | 2073/5155 [5:06:59<7:52:48,  9.20s/it] 40%|████      | 2074/5155 [5:07:07<7:45:18,  9.06s/it] 40%|████      | 2075/5155 [5:07:16<7:40:03,  8.96s/it] 40%|████      | 2076/5155 [5:07:25<7:36:47,  8.90s/it] 40%|████      | 2077/5155 [5:07:34<7:34:25,  8.86s/it] 40%|████      | 2078/5155 [5:07:43<7:38:24,  8.94s/it] 40%|████      | 2079/5155 [5:07:51<7:35:02,  8.88s/it] 40%|████      | 2080/5155 [5:08:00<7:32:32,  8.83s/it]                                                       {'loss': '0.0002591', 'grad_norm': '0.0003698', 'learning_rate': '0.000149', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '146.1', 'tokens/total': 34103296, 'tokens/trainable': 10797792, 'epoch': '2.019'}
+ 40%|████      | 2080/5155 [5:08:00<7:32:32,  8.83s/it] 40%|████      | 2081/5155 [5:08:09<7:30:58,  8.80s/it] 40%|████      | 2082/5155 [5:08:18<7:35:39,  8.90s/it] 40%|████      | 2083/5155 [5:08:27<7:33:28,  8.86s/it] 40%|████      | 2084/5155 [5:08:36<7:31:47,  8.83s/it] 40%|████      | 2085/5155 [5:08:44<7:30:34,  8.81s/it] 40%|████      | 2086/5155 [5:08:53<7:29:17,  8.78s/it] 40%|████      | 2087/5155 [5:09:02<7:34:12,  8.88s/it] 41%|████      | 2088/5155 [5:09:11<7:31:44,  8.84s/it] 41%|████      | 2089/5155 [5:09:20<7:29:56,  8.81s/it] 41%|████      | 2090/5155 [5:09:28<7:28:57,  8.79s/it]                                                       {'loss': '0.0001974', 'grad_norm': '0.003303', 'learning_rate': '0.0001484', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '146.8', 'tokens/total': 34267136, 'tokens/trainable': 10849439, 'epoch': '2.029'}
+ 41%|████      | 2090/5155 [5:09:28<7:28:57,  8.79s/it] 41%|████      | 2091/5155 [5:09:37<7:34:19,  8.90s/it] 41%|████      | 2092/5155 [5:09:46<7:31:57,  8.85s/it] 41%|████      | 2093/5155 [5:09:55<7:30:20,  8.82s/it] 41%|████      | 2094/5155 [5:10:04<7:29:18,  8.81s/it] 41%|████      | 2095/5155 [5:10:12<7:28:08,  8.79s/it] 41%|████      | 2096/5155 [5:10:22<7:32:54,  8.88s/it] 41%|████      | 2097/5155 [5:10:30<7:30:20,  8.84s/it] 41%|████      | 2098/5155 [5:10:39<7:28:37,  8.81s/it] 41%|████      | 2099/5155 [5:10:48<7:27:34,  8.79s/it] 41%|████      | 2100/5155 [5:10:57<7:32:38,  8.89s/it]                                                       {'loss': '0.0002909', 'grad_norm': '0.0001971', 'learning_rate': '0.0001478', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '142.1', 'tokens/total': 34430976, 'tokens/trainable': 10902278, 'epoch': '2.039'}
+ 41%|████      | 2100/5155 [5:10:57<7:32:38,  8.89s/it] 41%|████      | 2101/5155 [5:11:06<7:30:27,  8.85s/it] 41%|████      | 2102/5155 [5:11:14<7:28:25,  8.81s/it] 41%|████      | 2103/5155 [5:11:23<7:27:09,  8.79s/it] 41%|████      | 2104/5155 [5:11:32<7:26:06,  8.77s/it] 41%|████      | 2105/5155 [5:11:41<7:30:53,  8.87s/it] 41%|████      | 2106/5155 [5:11:50<7:28:53,  8.83s/it] 41%|████      | 2107/5155 [5:11:58<7:27:37,  8.81s/it] 41%|████      | 2108/5155 [5:12:07<7:26:43,  8.80s/it] 41%|████      | 2109/5155 [5:12:16<7:31:25,  8.89s/it] 41%|████      | 2110/5155 [5:12:25<7:29:19,  8.85s/it]                                                       {'loss': '0.0002168', 'grad_norm': '0.001153', 'learning_rate': '0.0001472', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '148.3', 'tokens/total': 34594816, 'tokens/trainable': 10954337, 'epoch': '2.048'}
+ 41%|████      | 2110/5155 [5:12:25<7:29:19,  8.85s/it] 41%|████      | 2111/5155 [5:12:34<7:27:24,  8.82s/it] 41%|████      | 2112/5155 [5:12:43<7:25:58,  8.79s/it] 41%|████      | 2113/5155 [5:12:51<7:24:57,  8.78s/it] 41%|████      | 2114/5155 [5:13:00<7:29:59,  8.88s/it] 41%|████      | 2115/5155 [5:13:09<7:27:47,  8.84s/it] 41%|████      | 2116/5155 [5:13:18<7:26:33,  8.82s/it] 41%|████      | 2117/5155 [5:13:27<7:25:32,  8.80s/it] 41%|████      | 2118/5155 [5:13:36<7:30:23,  8.90s/it] 41%|████      | 2119/5155 [5:13:45<7:28:04,  8.86s/it] 41%|████      | 2120/5155 [5:13:53<7:26:23,  8.82s/it]                                                       {'loss': '0.0001577', 'grad_norm': '0.001293', 'learning_rate': '0.0001466', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '142.2', 'tokens/total': 34758656, 'tokens/trainable': 11006253, 'epoch': '2.058'}
+ 41%|████      | 2120/5155 [5:13:53<7:26:23,  8.82s/it] 41%|████      | 2121/5155 [5:14:02<7:24:51,  8.80s/it] 41%|████      | 2122/5155 [5:14:11<7:23:39,  8.78s/it] 41%|████      | 2123/5155 [5:14:20<7:28:28,  8.87s/it] 41%|████      | 2124/5155 [5:14:29<7:26:04,  8.83s/it] 41%|████      | 2125/5155 [5:14:37<7:24:46,  8.81s/it] 41%|████      | 2126/5155 [5:14:46<7:23:55,  8.79s/it] 41%|████▏     | 2127/5155 [5:14:55<7:28:36,  8.89s/it] 41%|████▏     | 2128/5155 [5:15:04<7:26:25,  8.85s/it] 41%|████▏     | 2129/5155 [5:15:13<7:24:49,  8.82s/it] 41%|████▏     | 2130/5155 [5:15:22<7:23:19,  8.79s/it]                                                       {'loss': '0.0001102', 'grad_norm': '0.004589', 'learning_rate': '0.000146', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '145.3', 'tokens/total': 34922496, 'tokens/trainable': 11058062, 'epoch': '2.068'}
+ 41%|████▏     | 2130/5155 [5:15:22<7:23:19,  8.79s/it] 41%|████▏     | 2131/5155 [5:15:30<7:22:15,  8.77s/it] 41%|████▏     | 2132/5155 [5:15:39<7:26:48,  8.87s/it] 41%|████▏     | 2133/5155 [5:15:48<7:24:33,  8.83s/it] 41%|████▏     | 2134/5155 [5:15:57<7:23:09,  8.80s/it] 41%|████▏     | 2135/5155 [5:16:06<7:22:22,  8.79s/it] 41%|████▏     | 2136/5155 [5:16:15<7:27:25,  8.89s/it] 41%|████▏     | 2137/5155 [5:16:23<7:24:57,  8.85s/it] 41%|████▏     | 2138/5155 [5:16:32<7:23:19,  8.82s/it] 41%|████▏     | 2139/5155 [5:16:41<7:22:04,  8.79s/it] 42%|████▏     | 2140/5155 [5:16:50<7:26:41,  8.89s/it]                                                       {'loss': '0.0001949', 'grad_norm': '0.003262', 'learning_rate': '0.0001454', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '143.3', 'tokens/total': 35086336, 'tokens/trainable': 11109942, 'epoch': '2.078'}
+ 42%|████▏     | 2140/5155 [5:16:50<7:26:41,  8.89s/it] 42%|████▏     | 2141/5155 [5:16:59<7:24:04,  8.84s/it] 42%|████▏     | 2142/5155 [5:17:07<7:22:08,  8.80s/it] 42%|████▏     | 2143/5155 [5:17:16<7:20:46,  8.78s/it] 42%|████▏     | 2144/5155 [5:17:25<7:20:13,  8.77s/it] 42%|████▏     | 2145/5155 [5:17:34<7:25:10,  8.87s/it] 42%|████▏     | 2146/5155 [5:17:43<7:23:17,  8.84s/it] 42%|████▏     | 2147/5155 [5:17:52<7:21:43,  8.81s/it] 42%|████▏     | 2148/5155 [5:18:00<7:20:45,  8.79s/it] 42%|████▏     | 2149/5155 [5:18:09<7:25:09,  8.89s/it] 42%|████▏     | 2150/5155 [5:18:18<7:22:55,  8.84s/it]                                                       {'loss': '9.439e-05', 'grad_norm': '0.00786', 'learning_rate': '0.0001448', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '152.9', 'tokens/total': 35250176, 'tokens/trainable': 11161699, 'epoch': '2.087'}
+ 42%|████▏     | 2150/5155 [5:18:18<7:22:55,  8.84s/it] 42%|████▏     | 2151/5155 [5:18:27<7:21:17,  8.81s/it] 42%|████▏     | 2152/5155 [5:18:36<7:20:05,  8.79s/it] 42%|████▏     | 2153/5155 [5:18:44<7:19:06,  8.78s/it] 42%|████▏     | 2154/5155 [5:18:54<7:24:26,  8.89s/it] 42%|████▏     | 2155/5155 [5:19:02<7:22:15,  8.85s/it] 42%|████▏     | 2156/5155 [5:19:11<7:20:33,  8.81s/it] 42%|████▏     | 2157/5155 [5:19:20<7:19:30,  8.80s/it] 42%|████▏     | 2158/5155 [5:19:29<7:24:12,  8.89s/it] 42%|████▏     | 2159/5155 [5:19:38<7:21:27,  8.84s/it] 42%|████▏     | 2160/5155 [5:19:46<7:19:33,  8.81s/it]                                                       {'loss': '0.0001697', 'grad_norm': '0.0008932', 'learning_rate': '0.0001442', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '155.1', 'tokens/total': 35414016, 'tokens/trainable': 11213741, 'epoch': '2.097'}
+ 42%|████▏     | 2160/5155 [5:19:46<7:19:33,  8.81s/it] 42%|████▏     | 2161/5155 [5:19:55<7:18:12,  8.78s/it] 42%|████▏     | 2162/5155 [5:20:04<7:17:08,  8.76s/it] 42%|████▏     | 2163/5155 [5:20:13<7:22:27,  8.87s/it] 42%|████▏     | 2164/5155 [5:20:22<7:20:30,  8.84s/it] 42%|████▏     | 2165/5155 [5:20:30<7:18:53,  8.81s/it] 42%|████▏     | 2166/5155 [5:20:39<7:17:31,  8.78s/it] 42%|████▏     | 2167/5155 [5:20:48<7:21:59,  8.88s/it] 42%|████▏     | 2168/5155 [5:20:57<7:19:34,  8.83s/it] 42%|████▏     | 2169/5155 [5:21:06<7:17:54,  8.80s/it] 42%|████▏     | 2170/5155 [5:21:14<7:17:04,  8.79s/it]                                                       {'loss': '9.466e-05', 'grad_norm': '0.006946', 'learning_rate': '0.0001436', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '144.6', 'tokens/total': 35577856, 'tokens/trainable': 11265729, 'epoch': '2.107'}
+ 42%|████▏     | 2170/5155 [5:21:14<7:17:04,  8.79s/it] 42%|████▏     | 2171/5155 [5:21:23<7:16:29,  8.78s/it] 42%|████▏     | 2172/5155 [5:21:32<7:21:27,  8.88s/it] 42%|████▏     | 2173/5155 [5:21:41<7:19:02,  8.83s/it] 42%|████▏     | 2174/5155 [5:21:50<7:17:15,  8.80s/it] 42%|████▏     | 2175/5155 [5:21:58<7:15:56,  8.78s/it] 42%|████▏     | 2176/5155 [5:22:08<7:20:35,  8.87s/it] 42%|████▏     | 2177/5155 [5:22:16<7:18:30,  8.83s/it] 42%|████▏     | 2178/5155 [5:22:25<7:17:08,  8.81s/it] 42%|████▏     | 2179/5155 [5:22:34<7:16:13,  8.79s/it] 42%|████▏     | 2180/5155 [5:22:43<7:20:22,  8.88s/it]                                                       {'loss': '7.117e-05', 'grad_norm': '0.009757', 'learning_rate': '0.000143', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '149', 'tokens/total': 35741696, 'tokens/trainable': 11318089, 'epoch': '2.116'}
+ 42%|████▏     | 2180/5155 [5:22:43<7:20:22,  8.88s/it] 42%|████▏     | 2181/5155 [5:22:52<7:17:58,  8.84s/it] 42%|████▏     | 2182/5155 [5:23:00<7:16:08,  8.80s/it] 42%|████▏     | 2183/5155 [5:23:09<7:14:50,  8.78s/it] 42%|████▏     | 2184/5155 [5:23:18<7:14:06,  8.77s/it] 42%|████▏     | 2185/5155 [5:23:27<7:19:17,  8.87s/it] 42%|████▏     | 2186/5155 [5:23:36<7:17:22,  8.84s/it] 42%|████▏     | 2187/5155 [5:23:44<7:15:51,  8.81s/it] 42%|████▏     | 2188/5155 [5:23:53<7:14:45,  8.79s/it] 42%|████▏     | 2189/5155 [5:24:02<7:19:14,  8.89s/it] 42%|████▏     | 2190/5155 [5:24:11<7:16:44,  8.84s/it]                                                       {'loss': '0.000177', 'grad_norm': '0.003617', 'learning_rate': '0.0001424', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '163.1', 'tokens/total': 35905536, 'tokens/trainable': 11370159, 'epoch': '2.126'}
+ 42%|████▏     | 2190/5155 [5:24:11<7:16:44,  8.84s/it] 43%|████▎     | 2191/5155 [5:24:20<7:15:00,  8.81s/it] 43%|████▎     | 2192/5155 [5:24:29<7:13:48,  8.78s/it] 43%|████▎     | 2193/5155 [5:24:37<7:12:52,  8.77s/it] 43%|████▎     | 2194/5155 [5:24:46<7:18:04,  8.88s/it] 43%|████▎     | 2195/5155 [5:24:55<7:16:04,  8.84s/it] 43%|████▎     | 2196/5155 [5:25:04<7:14:30,  8.81s/it] 43%|████▎     | 2197/5155 [5:25:13<7:13:27,  8.79s/it] 43%|████▎     | 2198/5155 [5:25:22<7:18:17,  8.89s/it] 43%|████▎     | 2199/5155 [5:25:30<7:15:56,  8.85s/it] 43%|████▎     | 2200/5155 [5:25:39<7:14:12,  8.82s/it]                                                       {'loss': '0.0002221', 'grad_norm': '0.0008388', 'learning_rate': '0.0001417', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '153.1', 'tokens/total': 36069376, 'tokens/trainable': 11422568, 'epoch': '2.136'}
+ 43%|████▎     | 2200/5155 [5:25:39<7:14:12,  8.82s/it] 43%|████▎     | 2201/5155 [5:25:48<7:12:46,  8.79s/it] 43%|████▎     | 2202/5155 [5:25:57<7:11:50,  8.77s/it] 43%|████▎     | 2203/5155 [5:26:06<7:16:53,  8.88s/it] 43%|████▎     | 2204/5155 [5:26:15<7:14:53,  8.84s/it] 43%|████▎     | 2205/5155 [5:26:23<7:13:08,  8.81s/it] 43%|████▎     | 2206/5155 [5:26:32<7:11:50,  8.79s/it] 43%|████▎     | 2207/5155 [5:26:41<7:16:21,  8.88s/it] 43%|████▎     | 2208/5155 [5:26:50<7:13:50,  8.83s/it] 43%|████▎     | 2209/5155 [5:26:59<7:12:03,  8.80s/it] 43%|████▎     | 2210/5155 [5:27:07<7:11:32,  8.79s/it]                                                       {'loss': '0.0001852', 'grad_norm': '0.03692', 'learning_rate': '0.0001411', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '148.1', 'tokens/total': 36233216, 'tokens/trainable': 11473971, 'epoch': '2.145'}
+ 43%|████▎     | 2210/5155 [5:27:07<7:11:32,  8.79s/it] 43%|████▎     | 2211/5155 [5:27:16<7:10:55,  8.78s/it] 43%|████▎     | 2212/5155 [5:27:25<7:15:40,  8.88s/it] 43%|████▎     | 2213/5155 [5:27:34<7:13:31,  8.84s/it] 43%|████▎     | 2214/5155 [5:27:43<7:12:07,  8.82s/it] 43%|████▎     | 2215/5155 [5:27:51<7:10:49,  8.79s/it] 43%|████▎     | 2216/5155 [5:28:01<7:15:15,  8.89s/it] 43%|████▎     | 2217/5155 [5:28:09<7:12:59,  8.84s/it] 43%|████▎     | 2218/5155 [5:28:18<7:11:15,  8.81s/it] 43%|████▎     | 2219/5155 [5:28:27<7:09:58,  8.79s/it] 43%|████▎     | 2220/5155 [5:28:36<7:09:20,  8.78s/it]                                                       {'loss': '0.0001569', 'grad_norm': '0.000813', 'learning_rate': '0.0001405', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '152.2', 'tokens/total': 36397056, 'tokens/trainable': 11526106, 'epoch': '2.155'}
+ 43%|████▎     | 2220/5155 [5:28:36<7:09:20,  8.78s/it] 43%|████▎     | 2221/5155 [5:28:45<7:14:23,  8.88s/it] 43%|████▎     | 2222/5155 [5:28:53<7:12:17,  8.84s/it] 43%|████▎     | 2223/5155 [5:29:02<7:10:39,  8.81s/it] 43%|████▎     | 2224/5155 [5:29:11<7:09:19,  8.79s/it] 43%|████▎     | 2225/5155 [5:29:20<7:13:26,  8.88s/it] 43%|████▎     | 2226/5155 [5:29:29<7:11:01,  8.83s/it] 43%|████▎     | 2227/5155 [5:29:37<7:09:18,  8.80s/it] 43%|████▎     | 2228/5155 [5:29:46<7:08:04,  8.77s/it] 43%|████▎     | 2229/5155 [5:29:55<7:07:38,  8.77s/it] 43%|████▎     | 2230/5155 [5:30:04<7:12:42,  8.88s/it]                                                       {'loss': '0.0002746', 'grad_norm': '0.001443', 'learning_rate': '0.0001399', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '159.5', 'tokens/total': 36560896, 'tokens/trainable': 11578483, 'epoch': '2.165'}
+ 43%|████▎     | 2230/5155 [5:30:04<7:12:42,  8.88s/it] 43%|████▎     | 2231/5155 [5:30:13<7:10:36,  8.84s/it] 43%|████▎     | 2232/5155 [5:30:22<7:09:13,  8.81s/it] 43%|████▎     | 2233/5155 [5:30:30<7:08:07,  8.79s/it] 43%|████▎     | 2234/5155 [5:30:39<7:12:31,  8.88s/it] 43%|████▎     | 2235/5155 [5:30:48<7:10:13,  8.84s/it] 43%|████▎     | 2236/5155 [5:30:57<7:08:34,  8.81s/it] 43%|████▎     | 2237/5155 [5:31:06<7:07:21,  8.79s/it] 43%|████▎     | 2238/5155 [5:31:14<7:06:48,  8.78s/it] 43%|████▎     | 2239/5155 [5:31:23<7:11:37,  8.88s/it] 43%|████▎     | 2240/5155 [5:31:32<7:09:28,  8.84s/it]                                                       {'loss': '0.0003197', 'grad_norm': '0.02934', 'learning_rate': '0.0001393', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '161.5', 'tokens/total': 36724736, 'tokens/trainable': 11630965, 'epoch': '2.175'}
+ 43%|████▎     | 2240/5155 [5:31:32<7:09:28,  8.84s/it] 43%|████▎     | 2241/5155 [5:31:41<7:08:00,  8.81s/it] 43%|████▎     | 2242/5155 [5:31:50<7:06:54,  8.79s/it] 44%|████▎     | 2243/5155 [5:31:59<7:10:58,  8.88s/it] 44%|████▎     | 2244/5155 [5:32:08<7:08:38,  8.83s/it] 44%|████▎     | 2245/5155 [5:32:16<7:06:45,  8.80s/it] 44%|████▎     | 2246/5155 [5:32:25<7:05:34,  8.78s/it] 44%|████▎     | 2247/5155 [5:32:34<7:04:58,  8.77s/it] 44%|████▎     | 2248/5155 [5:32:43<7:09:58,  8.87s/it] 44%|████▎     | 2249/5155 [5:32:52<7:08:13,  8.84s/it] 44%|████▎     | 2250/5155 [5:33:00<7:06:35,  8.81s/it]                                                       {'loss': '0.0004162', 'grad_norm': '0.002108', 'learning_rate': '0.0001386', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '150.3', 'tokens/total': 36888576, 'tokens/trainable': 11682642, 'epoch': '2.184'}
+ 44%|████▎     | 2250/5155 [5:33:00<7:06:35,  8.81s/it] 44%|████▎     | 2251/5155 [5:33:09<7:05:23,  8.79s/it] 44%|████▎     | 2252/5155 [5:33:18<7:09:45,  8.88s/it] 44%|████▎     | 2253/5155 [5:33:27<7:07:12,  8.83s/it] 44%|████▎     | 2254/5155 [5:33:36<7:05:33,  8.80s/it] 44%|████▎     | 2255/5155 [5:33:44<7:04:34,  8.78s/it] 44%|████▍     | 2256/5155 [5:33:53<7:03:55,  8.77s/it] 44%|████▍     | 2257/5155 [5:34:02<7:08:25,  8.87s/it] 44%|████▍     | 2258/5155 [5:34:11<7:06:16,  8.83s/it] 44%|████▍     | 2259/5155 [5:34:20<7:04:41,  8.80s/it] 44%|████▍     | 2260/5155 [5:34:28<7:03:29,  8.78s/it]                                                       {'loss': '0.0004215', 'grad_norm': '0.003122', 'learning_rate': '0.000138', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '154.7', 'tokens/total': 37052416, 'tokens/trainable': 11734687, 'epoch': '2.194'}
+ 44%|████▍     | 2260/5155 [5:34:28<7:03:29,  8.78s/it] 44%|████▍     | 2261/5155 [5:34:37<7:07:58,  8.87s/it] 44%|████▍     | 2262/5155 [5:34:46<7:06:00,  8.84s/it] 44%|████▍     | 2263/5155 [5:34:55<7:04:35,  8.81s/it] 44%|████▍     | 2264/5155 [5:35:04<7:03:18,  8.79s/it] 44%|████▍     | 2265/5155 [5:35:12<7:02:21,  8.77s/it] 44%|████▍     | 2266/5155 [5:35:22<7:06:49,  8.86s/it] 44%|████▍     | 2267/5155 [5:35:30<7:04:40,  8.82s/it] 44%|████▍     | 2268/5155 [5:35:39<7:03:08,  8.79s/it] 44%|████▍     | 2269/5155 [5:35:48<7:02:30,  8.78s/it] 44%|████▍     | 2270/5155 [5:35:57<7:07:20,  8.89s/it]                                                       {'loss': '0.0003333', 'grad_norm': '0.009584', 'learning_rate': '0.0001374', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '148.8', 'tokens/total': 37216256, 'tokens/trainable': 11786194, 'epoch': '2.204'}
+ 44%|████▍     | 2270/5155 [5:35:57<7:07:20,  8.89s/it] 44%|████▍     | 2271/5155 [5:36:06<7:05:06,  8.84s/it] 44%|████▍     | 2272/5155 [5:36:14<7:03:35,  8.82s/it] 44%|████▍     | 2273/5155 [5:36:23<7:02:17,  8.79s/it] 44%|████▍     | 2274/5155 [5:36:32<7:01:06,  8.77s/it] 44%|████▍     | 2275/5155 [5:36:41<7:05:37,  8.87s/it] 44%|████▍     | 2276/5155 [5:36:50<7:03:41,  8.83s/it] 44%|████▍     | 2277/5155 [5:36:58<7:02:10,  8.80s/it] 44%|████▍     | 2278/5155 [5:37:07<7:01:35,  8.79s/it] 44%|████▍     | 2279/5155 [5:37:16<7:06:00,  8.89s/it] 44%|████▍     | 2280/5155 [5:37:25<7:03:58,  8.85s/it]                                                       {'loss': '0.0001125', 'grad_norm': '0.003174', 'learning_rate': '0.0001368', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '147.3', 'tokens/total': 37380096, 'tokens/trainable': 11837550, 'epoch': '2.213'}
+ 44%|████▍     | 2280/5155 [5:37:25<7:03:58,  8.85s/it] 44%|████▍     | 2281/5155 [5:37:34<7:02:36,  8.82s/it] 44%|████▍     | 2282/5155 [5:37:43<7:01:29,  8.80s/it] 44%|████▍     | 2283/5155 [5:37:51<7:00:11,  8.78s/it] 44%|████▍     | 2284/5155 [5:38:00<7:04:09,  8.86s/it] 44%|████▍     | 2285/5155 [5:38:09<7:02:06,  8.82s/it] 44%|████▍     | 2286/5155 [5:38:18<7:00:45,  8.80s/it] 44%|████▍     | 2287/5155 [5:38:27<6:59:57,  8.79s/it] 44%|████▍     | 2288/5155 [5:38:36<7:04:41,  8.89s/it] 44%|████▍     | 2289/5155 [5:38:44<7:02:37,  8.85s/it] 44%|████▍     | 2290/5155 [5:38:53<7:00:49,  8.81s/it]                                                       {'loss': '0.0002004', 'grad_norm': '0.03866', 'learning_rate': '0.0001361', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '153.3', 'tokens/total': 37543936, 'tokens/trainable': 11889401, 'epoch': '2.223'}
+ 44%|████▍     | 2290/5155 [5:38:53<7:00:49,  8.81s/it] 44%|████▍     | 2291/5155 [5:39:02<6:59:36,  8.79s/it] 44%|████▍     | 2292/5155 [5:39:11<6:58:40,  8.77s/it] 44%|████▍     | 2293/5155 [5:39:20<7:02:56,  8.87s/it] 45%|████▍     | 2294/5155 [5:39:28<7:01:14,  8.83s/it] 45%|████▍     | 2295/5155 [5:39:37<7:00:01,  8.81s/it] 45%|████▍     | 2296/5155 [5:39:46<6:59:05,  8.80s/it] 45%|████▍     | 2297/5155 [5:39:55<7:03:31,  8.89s/it] 45%|████▍     | 2298/5155 [5:40:04<7:01:48,  8.86s/it] 45%|████▍     | 2299/5155 [5:40:13<7:00:17,  8.83s/it] 45%|████▍     | 2300/5155 [5:40:21<6:58:50,  8.80s/it]                                                       {'loss': '0.0001107', 'grad_norm': '0.01215', 'learning_rate': '0.0001355', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '141.8', 'tokens/total': 37707776, 'tokens/trainable': 11941616, 'epoch': '2.233'}
+ 45%|████▍     | 2300/5155 [5:40:21<6:58:50,  8.80s/it] 45%|████▍     | 2301/5155 [5:40:30<6:57:49,  8.78s/it] 45%|████▍     | 2302/5155 [5:40:39<7:01:49,  8.87s/it] 45%|████▍     | 2303/5155 [5:40:48<6:59:48,  8.83s/it] 45%|████▍     | 2304/5155 [5:40:57<6:58:45,  8.81s/it] 45%|████▍     | 2305/5155 [5:41:05<6:58:00,  8.80s/it] 45%|████▍     | 2306/5155 [5:41:15<7:02:19,  8.89s/it] 45%|████▍     | 2307/5155 [5:41:23<7:00:18,  8.85s/it] 45%|████▍     | 2308/5155 [5:41:32<6:59:06,  8.83s/it] 45%|████▍     | 2309/5155 [5:41:41<6:57:45,  8.81s/it] 45%|████▍     | 2310/5155 [5:41:50<6:56:40,  8.79s/it]                                                       {'loss': '0.0002489', 'grad_norm': '0.0009742', 'learning_rate': '0.0001349', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '148.6', 'tokens/total': 37871616, 'tokens/trainable': 11993896, 'epoch': '2.242'}
+ 45%|████▍     | 2310/5155 [5:41:50<6:56:40,  8.79s/it] 45%|████▍     | 2311/5155 [5:41:59<7:00:48,  8.88s/it] 45%|████▍     | 2312/5155 [5:42:07<6:58:38,  8.84s/it] 45%|████▍     | 2313/5155 [5:42:16<6:57:17,  8.81s/it] 45%|████▍     | 2314/5155 [5:42:25<6:56:35,  8.80s/it] 45%|████▍     | 2315/5155 [5:42:34<7:00:56,  8.89s/it] 45%|████▍     | 2316/5155 [5:42:43<6:58:55,  8.85s/it] 45%|████▍     | 2317/5155 [5:42:52<6:57:24,  8.82s/it] 45%|████▍     | 2318/5155 [5:43:00<6:56:12,  8.80s/it] 45%|████▍     | 2319/5155 [5:43:09<6:55:08,  8.78s/it] 45%|████▌     | 2320/5155 [5:43:18<6:59:27,  8.88s/it]                                                       {'loss': '0.0003464', 'grad_norm': '0.012', 'learning_rate': '0.0001342', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '140.9', 'tokens/total': 38035456, 'tokens/trainable': 12045275, 'epoch': '2.252'}
+ 45%|████▌     | 2320/5155 [5:43:18<6:59:27,  8.88s/it] 45%|████▌     | 2321/5155 [5:43:27<6:57:22,  8.84s/it] 45%|████▌     | 2322/5155 [5:43:36<6:55:51,  8.81s/it] 45%|████▌     | 2323/5155 [5:43:44<6:55:09,  8.80s/it] 45%|████▌     | 2324/5155 [5:43:54<6:59:30,  8.89s/it] 45%|████▌     | 2325/5155 [5:44:02<6:57:21,  8.85s/it] 45%|████▌     | 2326/5155 [5:44:11<6:55:44,  8.82s/it] 45%|████▌     | 2327/5155 [5:44:20<6:54:36,  8.80s/it] 45%|████▌     | 2328/5155 [5:44:29<6:53:34,  8.78s/it] 45%|████▌     | 2329/5155 [5:44:38<6:57:40,  8.87s/it] 45%|████▌     | 2330/5155 [5:44:46<6:55:27,  8.82s/it]                                                       {'loss': '0.0008397', 'grad_norm': '0.02175', 'learning_rate': '0.0001336', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '150.5', 'tokens/total': 38199296, 'tokens/trainable': 12096897, 'epoch': '2.262'}
+ 45%|████▌     | 2330/5155 [5:44:46<6:55:27,  8.82s/it] 45%|████▌     | 2331/5155 [5:44:55<6:53:57,  8.80s/it] 45%|████▌     | 2332/5155 [5:45:04<6:53:08,  8.78s/it] 45%|████▌     | 2333/5155 [5:45:13<6:57:40,  8.88s/it] 45%|████▌     | 2334/5155 [5:45:22<6:55:27,  8.84s/it] 45%|████▌     | 2335/5155 [5:45:30<6:53:37,  8.80s/it] 45%|████▌     | 2336/5155 [5:45:39<6:52:34,  8.78s/it] 45%|████▌     | 2337/5155 [5:45:48<6:51:46,  8.77s/it] 45%|████▌     | 2338/5155 [5:45:57<6:56:25,  8.87s/it] 45%|████▌     | 2339/5155 [5:46:06<6:54:52,  8.84s/it] 45%|████▌     | 2340/5155 [5:46:14<6:53:39,  8.82s/it]                                                       {'loss': '0.0005815', 'grad_norm': '0.02026', 'learning_rate': '0.000133', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '142.8', 'tokens/total': 38363136, 'tokens/trainable': 12148443, 'epoch': '2.272'}
+ 45%|████▌     | 2340/5155 [5:46:15<6:53:39,  8.82s/it] 45%|████▌     | 2341/5155 [5:46:23<6:52:30,  8.80s/it] 45%|████▌     | 2342/5155 [5:46:32<6:56:45,  8.89s/it] 45%|████▌     | 2343/5155 [5:46:41<6:54:25,  8.84s/it] 45%|████▌     | 2344/5155 [5:46:50<6:52:33,  8.81s/it] 45%|████▌     | 2345/5155 [5:46:59<6:51:12,  8.78s/it] 46%|████▌     | 2346/5155 [5:47:07<6:50:19,  8.76s/it] 46%|████▌     | 2347/5155 [5:47:16<6:54:31,  8.86s/it] 46%|████▌     | 2348/5155 [5:47:25<6:52:58,  8.83s/it] 46%|████▌     | 2349/5155 [5:47:34<6:51:39,  8.80s/it] 46%|████▌     | 2350/5155 [5:47:43<6:50:35,  8.78s/it]                                                       {'loss': '0.0003578', 'grad_norm': '0.02819', 'learning_rate': '0.0001323', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '145', 'tokens/total': 38526976, 'tokens/trainable': 12200260, 'epoch': '2.281'}
+ 46%|████▌     | 2350/5155 [5:47:43<6:50:35,  8.78s/it] 46%|████▌     | 2351/5155 [5:47:52<6:55:23,  8.89s/it] 46%|████▌     | 2352/5155 [5:48:00<6:53:23,  8.85s/it] 46%|████▌     | 2353/5155 [5:48:09<6:51:41,  8.82s/it] 46%|████▌     | 2354/5155 [5:48:18<6:50:26,  8.79s/it] 46%|████▌     | 2355/5155 [5:48:27<6:49:32,  8.78s/it] 46%|████▌     | 2356/5155 [5:48:36<6:53:56,  8.87s/it] 46%|████▌     | 2357/5155 [5:48:45<6:52:16,  8.84s/it] 46%|████▌     | 2358/5155 [5:48:53<6:51:02,  8.82s/it] 46%|████▌     | 2359/5155 [5:49:02<6:49:51,  8.80s/it] 46%|████▌     | 2360/5155 [5:49:11<6:53:33,  8.88s/it]                                                       {'loss': '0.0006047', 'grad_norm': '0.01847', 'learning_rate': '0.0001317', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '134.4', 'tokens/total': 38690816, 'tokens/trainable': 12252405, 'epoch': '2.291'}
+ 46%|████▌     | 2360/5155 [5:49:11<6:53:33,  8.88s/it] 46%|████▌     | 2361/5155 [5:49:20<6:51:31,  8.84s/it] 46%|████▌     | 2362/5155 [5:49:29<6:49:54,  8.81s/it] 46%|████▌     | 2363/5155 [5:49:37<6:48:47,  8.79s/it] 46%|████▌     | 2364/5155 [5:49:46<6:48:08,  8.77s/it] 46%|████▌     | 2365/5155 [5:49:55<6:52:26,  8.87s/it] 46%|████▌     | 2366/5155 [5:50:04<6:50:39,  8.83s/it] 46%|████▌     | 2367/5155 [5:50:13<6:49:19,  8.81s/it] 46%|████▌     | 2368/5155 [5:50:21<6:48:07,  8.79s/it] 46%|████▌     | 2369/5155 [5:50:30<6:52:00,  8.87s/it] 46%|████▌     | 2370/5155 [5:50:39<6:50:08,  8.84s/it]                                                       {'loss': '0.0002944', 'grad_norm': '0.01852', 'learning_rate': '0.000131', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '154.2', 'tokens/total': 38854656, 'tokens/trainable': 12304241, 'epoch': '2.301'}
+ 46%|████▌     | 2370/5155 [5:50:39<6:50:08,  8.84s/it] 46%|████▌     | 2371/5155 [5:50:48<6:49:29,  8.83s/it] 46%|████▌     | 2372/5155 [5:50:57<6:49:07,  8.82s/it] 46%|████▌     | 2373/5155 [5:51:06<6:48:47,  8.82s/it] 46%|████▌     | 2374/5155 [5:51:15<6:53:37,  8.92s/it] 46%|████▌     | 2375/5155 [5:51:24<6:51:41,  8.89s/it] 46%|████▌     | 2376/5155 [5:51:32<6:49:35,  8.84s/it] 46%|████▌     | 2377/5155 [5:51:41<6:48:09,  8.82s/it] 46%|████▌     | 2378/5155 [5:51:50<6:51:49,  8.90s/it] 46%|████▌     | 2379/5155 [5:51:59<6:49:11,  8.84s/it] 46%|████▌     | 2380/5155 [5:52:08<6:47:20,  8.81s/it]                                                       {'loss': '0.0002711', 'grad_norm': '0.02409', 'learning_rate': '0.0001304', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '147.3', 'tokens/total': 39018496, 'tokens/trainable': 12356446, 'epoch': '2.31'}
+ 46%|████▌     | 2380/5155 [5:52:08<6:47:20,  8.81s/it] 46%|████▌     | 2381/5155 [5:52:16<6:46:30,  8.79s/it] 46%|████▌     | 2382/5155 [5:52:25<6:45:40,  8.78s/it] 46%|████▌     | 2383/5155 [5:52:34<6:49:53,  8.87s/it] 46%|████▌     | 2384/5155 [5:52:43<6:47:50,  8.83s/it] 46%|████▋     | 2385/5155 [5:52:52<6:46:22,  8.80s/it] 46%|████▋     | 2386/5155 [5:53:00<6:45:27,  8.79s/it] 46%|████▋     | 2387/5155 [5:53:10<6:50:00,  8.89s/it] 46%|████▋     | 2388/5155 [5:53:18<6:48:36,  8.86s/it] 46%|████▋     | 2389/5155 [5:53:27<6:46:48,  8.82s/it] 46%|████▋     | 2390/5155 [5:53:36<6:45:28,  8.80s/it]                                                       {'loss': '0.0001626', 'grad_norm': '0.01916', 'learning_rate': '0.0001297', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '154', 'tokens/total': 39182336, 'tokens/trainable': 12408205, 'epoch': '2.32'}
+ 46%|████▋     | 2390/5155 [5:53:36<6:45:28,  8.80s/it] 46%|████▋     | 2391/5155 [5:53:45<6:44:31,  8.78s/it] 46%|████▋     | 2392/5155 [5:53:54<6:48:41,  8.88s/it] 46%|████▋     | 2393/5155 [5:54:02<6:46:44,  8.84s/it] 46%|████▋     | 2394/5155 [5:54:11<6:45:19,  8.81s/it] 46%|████▋     | 2395/5155 [5:54:20<6:44:18,  8.79s/it] 46%|████▋     | 2396/5155 [5:54:29<6:48:28,  8.88s/it] 46%|████▋     | 2397/5155 [5:54:38<6:46:39,  8.85s/it] 47%|████▋     | 2398/5155 [5:54:47<6:45:06,  8.82s/it] 47%|████▋     | 2399/5155 [5:54:55<6:43:52,  8.79s/it] 47%|████▋     | 2400/5155 [5:55:04<6:43:25,  8.79s/it]                                                       {'loss': '0.0001862', 'grad_norm': '0.03015', 'learning_rate': '0.0001291', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '142.9', 'tokens/total': 39346176, 'tokens/trainable': 12460035, 'epoch': '2.33'}
+ 47%|████▋     | 2400/5155 [5:55:04<6:43:25,  8.79s/it] 47%|████▋     | 2401/5155 [5:55:13<6:48:31,  8.90s/it] 47%|████▋     | 2402/5155 [5:55:22<6:46:58,  8.87s/it] 47%|████▋     | 2403/5155 [5:55:31<6:45:42,  8.85s/it] 47%|████▋     | 2404/5155 [5:55:40<6:44:59,  8.83s/it] 47%|████▋     | 2405/5155 [5:55:49<6:49:15,  8.93s/it] 47%|████▋     | 2406/5155 [5:55:58<6:46:52,  8.88s/it] 47%|████▋     | 2407/5155 [5:56:06<6:44:56,  8.84s/it] 47%|████▋     | 2408/5155 [5:56:15<6:43:12,  8.81s/it] 47%|████▋     | 2409/5155 [5:56:24<6:41:58,  8.78s/it] 47%|████▋     | 2410/5155 [5:56:33<6:45:52,  8.87s/it]                                                       {'loss': '0.0001399', 'grad_norm': '0.00184', 'learning_rate': '0.0001284', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '143.7', 'tokens/total': 39510016, 'tokens/trainable': 12512793, 'epoch': '2.339'}
+ 47%|████▋     | 2410/5155 [5:56:33<6:45:52,  8.87s/it] 47%|████▋     | 2411/5155 [5:56:42<6:43:40,  8.83s/it] 47%|████▋     | 2412/5155 [5:56:50<6:42:04,  8.79s/it] 47%|████▋     | 2413/5155 [5:56:59<6:40:57,  8.77s/it] 47%|████▋     | 2414/5155 [5:57:08<6:44:56,  8.86s/it] 47%|████▋     | 2415/5155 [5:57:17<6:42:53,  8.82s/it] 47%|████▋     | 2416/5155 [5:57:25<6:41:33,  8.80s/it] 47%|████▋     | 2417/5155 [5:57:34<6:40:46,  8.78s/it] 47%|████▋     | 2418/5155 [5:57:43<6:40:05,  8.77s/it] 47%|████▋     | 2419/5155 [5:57:52<6:44:09,  8.86s/it] 47%|████▋     | 2420/5155 [5:58:01<6:42:10,  8.82s/it]                                                       {'loss': '0.0004946', 'grad_norm': '0.007294', 'learning_rate': '0.0001278', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '144.9', 'tokens/total': 39673856, 'tokens/trainable': 12564678, 'epoch': '2.349'}
+ 47%|████▋     | 2420/5155 [5:58:01<6:42:10,  8.82s/it] 47%|████▋     | 2421/5155 [5:58:10<6:40:43,  8.79s/it] 47%|████▋     | 2422/5155 [5:58:18<6:39:36,  8.77s/it] 47%|████▋     | 2423/5155 [5:58:27<6:43:44,  8.87s/it] 47%|████▋     | 2424/5155 [5:58:36<6:41:56,  8.83s/it] 47%|████▋     | 2425/5155 [5:58:45<6:40:31,  8.80s/it] 47%|████▋     | 2426/5155 [5:58:54<6:39:17,  8.78s/it] 47%|████▋     | 2427/5155 [5:59:03<6:43:07,  8.87s/it] 47%|████▋     | 2428/5155 [5:59:11<6:40:58,  8.82s/it] 47%|████▋     | 2429/5155 [5:59:20<6:39:33,  8.79s/it] 47%|████▋     | 2430/5155 [5:59:29<6:38:49,  8.78s/it]                                                       {'loss': '0.0002629', 'grad_norm': '0.001304', 'learning_rate': '0.0001271', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '143.1', 'tokens/total': 39837696, 'tokens/trainable': 12616633, 'epoch': '2.359'}
+ 47%|████▋     | 2430/5155 [5:59:29<6:38:49,  8.78s/it] 47%|████▋     | 2431/5155 [5:59:38<6:38:22,  8.77s/it] 47%|████▋     | 2432/5155 [5:59:47<6:42:41,  8.87s/it] 47%|████▋     | 2433/5155 [5:59:55<6:40:52,  8.84s/it] 47%|████▋     | 2434/5155 [6:00:04<6:39:17,  8.80s/it] 47%|████▋     | 2435/5155 [6:00:13<6:38:02,  8.78s/it] 47%|████▋     | 2436/5155 [6:00:22<6:41:56,  8.87s/it] 47%|████▋     | 2437/5155 [6:00:31<6:39:44,  8.82s/it] 47%|████▋     | 2438/5155 [6:00:39<6:38:19,  8.80s/it] 47%|████▋     | 2439/5155 [6:00:48<6:37:31,  8.78s/it] 47%|████▋     | 2440/5155 [6:00:57<6:36:59,  8.77s/it]                                                       {'loss': '0.0005044', 'grad_norm': '0.006011', 'learning_rate': '0.0001265', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '155.1', 'tokens/total': 40001536, 'tokens/trainable': 12669042, 'epoch': '2.368'}
+ 47%|████▋     | 2440/5155 [6:00:57<6:36:59,  8.77s/it] 47%|████▋     | 2441/5155 [6:01:06<6:40:54,  8.86s/it] 47%|████▋     | 2442/5155 [6:01:15<6:38:51,  8.82s/it] 47%|████▋     | 2443/5155 [6:01:23<6:37:23,  8.79s/it] 47%|████▋     | 2444/5155 [6:01:32<6:36:19,  8.77s/it] 47%|████▋     | 2445/5155 [6:01:41<6:40:59,  8.88s/it] 47%|████▋     | 2446/5155 [6:01:50<6:39:22,  8.85s/it] 47%|████▋     | 2447/5155 [6:01:59<6:37:57,  8.82s/it] 47%|████▋     | 2448/5155 [6:02:08<6:37:07,  8.80s/it] 48%|████▊     | 2449/5155 [6:02:16<6:36:31,  8.79s/it] 48%|████▊     | 2450/5155 [6:02:25<6:40:30,  8.88s/it]                                                       {'loss': '0.000204', 'grad_norm': '0.004093', 'learning_rate': '0.0001258', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '145.4', 'tokens/total': 40165376, 'tokens/trainable': 12720635, 'epoch': '2.378'}
+ 48%|████▊     | 2450/5155 [6:02:25<6:40:30,  8.88s/it] 48%|████▊     | 2451/5155 [6:02:34<6:38:29,  8.84s/it] 48%|████▊     | 2452/5155 [6:02:43<6:36:57,  8.81s/it] 48%|████▊     | 2453/5155 [6:02:52<6:35:44,  8.79s/it] 48%|████▊     | 2454/5155 [6:03:01<6:40:02,  8.89s/it] 48%|████▊     | 2455/5155 [6:03:10<6:38:04,  8.85s/it] 48%|████▊     | 2456/5155 [6:03:18<6:36:35,  8.82s/it] 48%|████▊     | 2457/5155 [6:03:27<6:35:43,  8.80s/it] 48%|████▊     | 2458/5155 [6:03:36<6:35:07,  8.79s/it] 48%|████▊     | 2459/5155 [6:03:45<6:39:25,  8.89s/it] 48%|████▊     | 2460/5155 [6:03:54<6:37:07,  8.84s/it]                                                       {'loss': '0.0001021', 'grad_norm': '0.004112', 'learning_rate': '0.0001252', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '151', 'tokens/total': 40329216, 'tokens/trainable': 12772667, 'epoch': '2.388'}
+ 48%|████▊     | 2460/5155 [6:03:54<6:37:07,  8.84s/it] 48%|████▊     | 2461/5155 [6:04:02<6:35:24,  8.81s/it] 48%|████▊     | 2462/5155 [6:04:11<6:34:09,  8.78s/it] 48%|████▊     | 2463/5155 [6:04:20<6:38:15,  8.88s/it] 48%|████▊     | 2464/5155 [6:04:29<6:36:24,  8.84s/it] 48%|████▊     | 2465/5155 [6:04:38<6:34:54,  8.81s/it] 48%|████▊     | 2466/5155 [6:04:46<6:33:34,  8.78s/it] 48%|████▊     | 2467/5155 [6:04:55<6:32:37,  8.76s/it] 48%|████▊     | 2468/5155 [6:05:04<6:36:37,  8.86s/it] 48%|████▊     | 2469/5155 [6:05:13<6:34:44,  8.82s/it] 48%|████▊     | 2470/5155 [6:05:22<6:33:35,  8.80s/it]                                                       {'loss': '0.0001986', 'grad_norm': '0.00566', 'learning_rate': '0.0001245', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '148.5', 'tokens/total': 40493056, 'tokens/trainable': 12824689, 'epoch': '2.398'}
+ 48%|████▊     | 2470/5155 [6:05:22<6:33:35,  8.80s/it] 48%|████▊     | 2471/5155 [6:05:30<6:32:56,  8.78s/it] 48%|████▊     | 2472/5155 [6:05:40<6:37:29,  8.89s/it] 48%|████▊     | 2473/5155 [6:05:48<6:35:45,  8.85s/it] 48%|████▊     | 2474/5155 [6:05:57<6:34:51,  8.84s/it] 48%|████▊     | 2475/5155 [6:06:06<6:33:29,  8.81s/it] 48%|████▊     | 2476/5155 [6:06:15<6:32:22,  8.79s/it] 48%|████▊     | 2477/5155 [6:06:24<6:36:22,  8.88s/it] 48%|████▊     | 2478/5155 [6:06:32<6:34:33,  8.84s/it] 48%|████▊     | 2479/5155 [6:06:41<6:33:43,  8.83s/it] 48%|████▊     | 2480/5155 [6:06:50<6:33:08,  8.82s/it]                                                       {'loss': '0.0001493', 'grad_norm': '0.01449', 'learning_rate': '0.0001239', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '152.8', 'tokens/total': 40656896, 'tokens/trainable': 12876411, 'epoch': '2.407'}
+ 48%|████▊     | 2480/5155 [6:06:50<6:33:08,  8.82s/it] 48%|████▊     | 2481/5155 [6:06:59<6:37:25,  8.92s/it] 48%|████▊     | 2482/5155 [6:07:08<6:35:24,  8.88s/it] 48%|████▊     | 2483/5155 [6:07:17<6:33:59,  8.85s/it] 48%|████▊     | 2484/5155 [6:07:26<6:32:51,  8.83s/it] 48%|████▊     | 2485/5155 [6:07:34<6:32:14,  8.81s/it] 48%|████▊     | 2486/5155 [6:07:43<6:36:29,  8.91s/it] 48%|████▊     | 2487/5155 [6:07:52<6:34:28,  8.87s/it] 48%|████▊     | 2488/5155 [6:08:01<6:33:37,  8.86s/it] 48%|████▊     | 2489/5155 [6:08:10<6:32:46,  8.84s/it] 48%|████▊     | 2490/5155 [6:08:19<6:36:23,  8.92s/it]                                                       {'loss': '7.2e-05', 'grad_norm': '0.001943', 'learning_rate': '0.0001232', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '150.6', 'tokens/total': 40820736, 'tokens/trainable': 12928897, 'epoch': '2.417'}
+ 48%|████▊     | 2490/5155 [6:08:19<6:36:23,  8.92s/it] 48%|████▊     | 2491/5155 [6:08:28<6:34:15,  8.88s/it] 48%|████▊     | 2492/5155 [6:08:37<6:32:38,  8.85s/it] 48%|████▊     | 2493/5155 [6:08:45<6:31:24,  8.82s/it] 48%|████▊     | 2494/5155 [6:08:54<6:30:41,  8.81s/it] 48%|████▊     | 2495/5155 [6:09:03<6:35:47,  8.93s/it] 48%|████▊     | 2496/5155 [6:09:12<6:34:03,  8.89s/it] 48%|████▊     | 2497/5155 [6:09:21<6:32:32,  8.86s/it] 48%|████▊     | 2498/5155 [6:09:30<6:30:41,  8.82s/it] 48%|████▊     | 2499/5155 [6:09:39<6:33:51,  8.90s/it] 48%|████▊     | 2500/5155 [6:09:47<6:31:42,  8.85s/it]                                                       {'loss': '0.0004366', 'grad_norm': '0.0251', 'learning_rate': '0.0001226', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '144.8', 'tokens/total': 40984576, 'tokens/trainable': 12980466, 'epoch': '2.427'}
+ 48%|████▊     | 2500/5155 [6:09:47<6:31:42,  8.85s/it] 49%|████▊     | 2501/5155 [6:09:56<6:30:40,  8.83s/it] 49%|████▊     | 2502/5155 [6:10:05<6:30:19,  8.83s/it] 49%|████▊     | 2503/5155 [6:10:14<6:30:14,  8.83s/it] 49%|████▊     | 2504/5155 [6:10:23<6:35:02,  8.94s/it] 49%|████▊     | 2505/5155 [6:10:32<6:33:26,  8.91s/it] 49%|████▊     | 2506/5155 [6:10:41<6:31:45,  8.87s/it] 49%|████▊     | 2507/5155 [6:10:49<6:30:19,  8.84s/it] 49%|████▊     | 2508/5155 [6:10:59<6:34:20,  8.94s/it] 49%|████▊     | 2509/5155 [6:11:08<6:33:30,  8.92s/it] 49%|████▊     | 2510/5155 [6:11:16<6:31:51,  8.89s/it]                                                       {'loss': '0.0001284', 'grad_norm': '0.007349', 'learning_rate': '0.0001219', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '151.5', 'tokens/total': 41148416, 'tokens/trainable': 13032069, 'epoch': '2.436'}
+ 49%|████▊     | 2510/5155 [6:11:16<6:31:51,  8.89s/it] 49%|████▊     | 2511/5155 [6:11:25<6:29:42,  8.84s/it] 49%|████▊     | 2512/5155 [6:11:34<6:28:23,  8.82s/it] 49%|████▊     | 2513/5155 [6:11:43<6:32:15,  8.91s/it] 49%|████▉     | 2514/5155 [6:11:52<6:30:05,  8.86s/it] 49%|████▉     | 2515/5155 [6:12:00<6:28:26,  8.83s/it] 49%|████▉     | 2516/5155 [6:12:09<6:27:02,  8.80s/it] 49%|████▉     | 2517/5155 [6:12:18<6:30:43,  8.89s/it] 49%|████▉     | 2518/5155 [6:12:27<6:29:03,  8.85s/it] 49%|████▉     | 2519/5155 [6:12:36<6:28:09,  8.84s/it] 49%|████▉     | 2520/5155 [6:12:45<6:27:39,  8.83s/it]                                                       {'loss': '6.898e-05', 'grad_norm': '0.002907', 'learning_rate': '0.0001212', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '142.3', 'tokens/total': 41312256, 'tokens/trainable': 13084418, 'epoch': '2.446'}
+ 49%|████▉     | 2520/5155 [6:12:45<6:27:39,  8.83s/it] 49%|████▉     | 2521/5155 [6:12:54<6:32:05,  8.93s/it] 49%|████▉     | 2522/5155 [6:13:03<6:30:09,  8.89s/it] 49%|████▉     | 2523/5155 [6:13:11<6:29:02,  8.87s/it] 49%|████▉     | 2524/5155 [6:13:20<6:31:15,  8.92s/it] 49%|████▉     | 2525/5155 [6:13:29<6:29:51,  8.89s/it] 49%|████▉     | 2526/5155 [6:13:38<6:33:39,  8.98s/it] 49%|████▉     | 2527/5155 [6:13:47<6:31:21,  8.94s/it] 49%|████▉     | 2528/5155 [6:13:56<6:29:51,  8.90s/it] 49%|████▉     | 2529/5155 [6:14:05<6:28:41,  8.88s/it] 49%|████▉     | 2530/5155 [6:14:14<6:32:46,  8.98s/it]                                                       {'loss': '0.0001175', 'grad_norm': '0.0107', 'learning_rate': '0.0001206', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '137.9', 'tokens/total': 41476096, 'tokens/trainable': 13136606, 'epoch': '2.456'}
+ 49%|████▉     | 2530/5155 [6:14:14<6:32:46,  8.98s/it] 49%|████▉     | 2531/5155 [6:14:23<6:30:18,  8.92s/it] 49%|████▉     | 2532/5155 [6:14:32<6:28:46,  8.89s/it] 49%|████▉     | 2533/5155 [6:14:41<6:27:34,  8.87s/it] 49%|████▉     | 2534/5155 [6:14:49<6:26:31,  8.85s/it] 49%|████▉     | 2535/5155 [6:14:59<6:30:53,  8.95s/it] 49%|████▉     | 2536/5155 [6:15:07<6:29:01,  8.91s/it] 49%|████▉     | 2537/5155 [6:15:16<6:27:53,  8.89s/it] 49%|████▉     | 2538/5155 [6:15:25<6:26:51,  8.87s/it] 49%|████▉     | 2539/5155 [6:15:34<6:30:59,  8.97s/it] 49%|████▉     | 2540/5155 [6:15:43<6:29:08,  8.93s/it]                                                       {'loss': '0.0003228', 'grad_norm': '0.002509', 'learning_rate': '0.0001199', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '142.4', 'tokens/total': 41639936, 'tokens/trainable': 13188322, 'epoch': '2.465'}
+ 49%|████▉     | 2540/5155 [6:15:43<6:29:08,  8.93s/it] 49%|████▉     | 2541/5155 [6:15:52<6:27:39,  8.90s/it] 49%|████▉     | 2542/5155 [6:16:01<6:26:36,  8.88s/it] 49%|████▉     | 2543/5155 [6:16:10<6:25:47,  8.86s/it] 49%|████▉     | 2544/5155 [6:16:19<6:33:15,  9.04s/it] 49%|████▉     | 2545/5155 [6:16:28<6:30:07,  8.97s/it] 49%|████▉     | 2546/5155 [6:16:37<6:28:01,  8.92s/it] 49%|████▉     | 2547/5155 [6:16:45<6:26:21,  8.89s/it] 49%|████▉     | 2548/5155 [6:16:55<6:30:17,  8.98s/it] 49%|████▉     | 2549/5155 [6:17:03<6:27:38,  8.92s/it] 49%|████▉     | 2550/5155 [6:17:12<6:25:48,  8.89s/it]                                                       {'loss': '0.000323', 'grad_norm': '0.009016', 'learning_rate': '0.0001192', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '145.2', 'tokens/total': 41803776, 'tokens/trainable': 13240187, 'epoch': '2.475'}
+ 49%|████▉     | 2550/5155 [6:17:12<6:25:48,  8.89s/it] 49%|████▉     | 2551/5155 [6:17:21<6:24:30,  8.86s/it] 50%|████▉     | 2552/5155 [6:17:30<6:23:36,  8.84s/it] 50%|████▉     | 2553/5155 [6:17:39<6:30:51,  9.01s/it] 50%|████▉     | 2554/5155 [6:17:48<6:27:40,  8.94s/it] 50%|████▉     | 2555/5155 [6:17:57<6:25:37,  8.90s/it] 50%|████▉     | 2556/5155 [6:18:06<6:24:06,  8.87s/it] 50%|████▉     | 2557/5155 [6:18:15<6:24:41,  8.88s/it] 50%|████▉     | 2558/5155 [6:18:24<6:30:48,  9.03s/it] 50%|████▉     | 2559/5155 [6:18:33<6:28:03,  8.97s/it] 50%|████▉     | 2560/5155 [6:18:42<6:26:43,  8.94s/it]                                                       {'loss': '0.0007696', 'grad_norm': '0.3949', 'learning_rate': '0.0001186', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '143.2', 'tokens/total': 41967616, 'tokens/trainable': 13291657, 'epoch': '2.485'}
+ 50%|████▉     | 2560/5155 [6:18:42<6:26:43,  8.94s/it] 50%|████▉     | 2561/5155 [6:18:50<6:25:28,  8.92s/it] 50%|████▉     | 2562/5155 [6:19:00<6:32:14,  9.08s/it] 50%|████▉     | 2563/5155 [6:19:09<6:29:50,  9.02s/it] 50%|████▉     | 2564/5155 [6:19:18<6:27:29,  8.97s/it] 50%|████▉     | 2565/5155 [6:19:27<6:25:48,  8.94s/it] 50%|████▉     | 2566/5155 [6:19:36<6:32:48,  9.10s/it] 50%|████▉     | 2567/5155 [6:19:45<6:29:53,  9.04s/it] 50%|████▉     | 2568/5155 [6:19:54<6:28:02,  9.00s/it] 50%|████▉     | 2569/5155 [6:20:03<6:27:04,  8.98s/it] 50%|████▉     | 2570/5155 [6:20:12<6:25:41,  8.95s/it]                                                       {'loss': '0.00168', 'grad_norm': '0.005293', 'learning_rate': '0.0001179', 'ppl': '1.002', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '148.3', 'tokens/total': 42131456, 'tokens/trainable': 13343711, 'epoch': '2.495'}
+ 50%|████▉     | 2570/5155 [6:20:12<6:25:41,  8.95s/it] 50%|████▉     | 2571/5155 [6:20:21<6:32:09,  9.11s/it] 50%|████▉     | 2572/5155 [6:20:30<6:29:21,  9.04s/it] 50%|████▉     | 2573/5155 [6:20:39<6:27:14,  9.00s/it] 50%|████▉     | 2574/5155 [6:20:48<6:25:54,  8.97s/it] 50%|████▉     | 2575/5155 [6:20:57<6:32:33,  9.13s/it] 50%|████▉     | 2576/5155 [6:21:06<6:29:10,  9.05s/it] 50%|████▉     | 2577/5155 [6:21:15<6:27:04,  9.01s/it] 50%|█████     | 2578/5155 [6:21:24<6:25:35,  8.98s/it] 50%|█████     | 2579/5155 [6:21:33<6:24:38,  8.96s/it] 50%|█████     | 2580/5155 [6:21:42<6:31:24,  9.12s/it]                                                       {'loss': '0.0001935', 'grad_norm': '0.001384', 'learning_rate': '0.0001172', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '138.4', 'tokens/total': 42295296, 'tokens/trainable': 13396092, 'epoch': '2.504'}
+ 50%|█████     | 2580/5155 [6:21:42<6:31:24,  9.12s/it][2026-02-26 05:42:29,188] [INFO] [axolotl.core.trainers.base.evaluate:400] [PID:2758243] Running evaluation step...
+[2026-02-26 05:42:30,901] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.8350286483764648
+[2026-02-26 05:42:31,751] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.8495430946350098
+[2026-02-26 05:42:32,584] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.8324902057647705
+[2026-02-26 05:42:33,306] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.7219445705413818
+[2026-02-26 05:42:33,307] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:2758243] gather_len_batches: [17]
+
+  0%|          | 0/17 [00:00<?, ?it/s][A
+ 12%|█▏        | 2/17 [00:00<00:04,  3.21it/s][A
+ 18%|█▊        | 3/17 [00:01<00:06,  2.25it/s][A
+ 24%|██▎       | 4/17 [00:01<00:06,  1.95it/s][A
+ 29%|██▉       | 5/17 [00:02<00:08,  1.46it/s][A
+ 35%|███▌      | 6/17 [00:03<00:07,  1.51it/s][A
+ 41%|████      | 7/17 [00:04<00:06,  1.54it/s][A
+ 47%|████▋     | 8/17 [00:04<00:05,  1.55it/s][A
+ 53%|█████▎    | 9/17 [00:05<00:05,  1.46it/s][A
+ 59%|█████▉    | 10/17 [00:06<00:04,  1.50it/s][A
+ 65%|██████▍   | 11/17 [00:06<00:03,  1.52it/s][A
+ 71%|███████   | 12/17 [00:07<00:03,  1.54it/s][A
+ 76%|███████▋  | 13/17 [00:08<00:02,  1.41it/s][A
+ 82%|████████▏ | 14/17 [00:08<00:02,  1.47it/s][A
+ 88%|████████▊ | 15/17 [00:09<00:01,  1.50it/s][A
+ 94%|█████████▍| 16/17 [00:10<00:00,  1.53it/s][A
+100%|██████████| 17/17 [00:10<00:00,  1.57it/s][A                                                       
+                                               [A{'eval_loss': '8.247e-05', 'eval_runtime': '12.31', 'eval_samples_per_second': '16.25', 'eval_steps_per_second': '8.123', 'eval_ppl': '1', 'memory/max_active (GiB)': '14.2', 'memory/max_allocated (GiB)': '14.2', 'memory/device_reserved (GiB)': '20.01', 'epoch': '2.504', 'tokens/train_per_sec_per_gpu': '0'}
+ 50%|█████     | 2580/5155 [6:21:59<6:31:24,  9.12s/it]
+100%|██████████| 17/17 [00:10<00:00,  1.57it/s][A
+                                               [A 50%|█████     | 2581/5155 [6:22:08<9:59:31, 13.97s/it] 50%|█████     | 2582/5155 [6:22:17<8:53:44, 12.45s/it] 50%|█████     | 2583/5155 [6:22:26<8:08:01, 11.38s/it] 50%|█████     | 2584/5155 [6:22:34<7:35:57, 10.64s/it] 50%|█████     | 2585/5155 [6:22:44<7:20:28, 10.28s/it] 50%|█████     | 2586/5155 [6:22:53<7:03:19,  9.89s/it] 50%|█████     | 2587/5155 [6:23:02<6:50:39,  9.59s/it] 50%|█████     | 2588/5155 [6:23:11<6:42:12,  9.40s/it] 50%|█████     | 2589/5155 [6:23:20<6:43:11,  9.43s/it] 50%|█████     | 2590/5155 [6:23:29<6:36:17,  9.27s/it]                                                       {'loss': '8.509e-05', 'grad_norm': '0.003271', 'learning_rate': '0.0001166', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '134.7', 'tokens/total': 42459136, 'tokens/trainable': 13448209, 'epoch': '2.514'}
+ 50%|█████     | 2590/5155 [6:23:29<6:36:17,  9.27s/it] 50%|█████     | 2591/5155 [6:23:38<6:31:27,  9.16s/it] 50%|█████     | 2592/5155 [6:23:47<6:28:13,  9.09s/it] 50%|█████     | 2593/5155 [6:23:56<6:25:48,  9.04s/it] 50%|█████     | 2594/5155 [6:24:05<6:31:24,  9.17s/it] 50%|█████     | 2595/5155 [6:24:14<6:27:39,  9.09s/it] 50%|█████     | 2596/5155 [6:24:23<6:25:28,  9.04s/it] 50%|█████     | 2597/5155 [6:24:32<6:23:51,  9.00s/it] 50%|█████     | 2598/5155 [6:24:42<6:29:45,  9.15s/it] 50%|█████     | 2599/5155 [6:24:50<6:26:30,  9.07s/it] 50%|█████     | 2600/5155 [6:24:59<6:24:22,  9.03s/it]                                                       {'loss': '3.968e-05', 'grad_norm': '0.0009727', 'learning_rate': '0.0001159', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '135.4', 'tokens/total': 42622976, 'tokens/trainable': 13499718, 'epoch': '2.524'}
+ 50%|█████     | 2600/5155 [6:24:59<6:24:22,  9.03s/it] 50%|█████     | 2601/5155 [6:25:08<6:23:03,  9.00s/it] 50%|█████     | 2602/5155 [6:25:17<6:21:43,  8.97s/it] 50%|█████     | 2603/5155 [6:25:27<6:28:20,  9.13s/it] 51%|█████     | 2604/5155 [6:25:36<6:25:23,  9.06s/it] 51%|█████     | 2605/5155 [6:25:45<6:23:18,  9.02s/it] 51%|█████     | 2606/5155 [6:25:53<6:21:51,  8.99s/it] 51%|█████     | 2607/5155 [6:26:03<6:27:51,  9.13s/it] 51%|█████     | 2608/5155 [6:26:12<6:23:50,  9.04s/it] 51%|█████     | 2609/5155 [6:26:21<6:22:04,  9.00s/it] 51%|█████     | 2610/5155 [6:26:30<6:20:49,  8.98s/it]                                                       {'loss': '0.000184', 'grad_norm': '0.001053', 'learning_rate': '0.0001152', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '156.2', 'tokens/total': 42786816, 'tokens/trainable': 13551815, 'epoch': '2.533'}
+ 51%|█████     | 2610/5155 [6:26:30<6:20:49,  8.98s/it] 51%|█████     | 2611/5155 [6:26:38<6:19:49,  8.96s/it] 51%|█████     | 2612/5155 [6:26:48<6:26:26,  9.12s/it] 51%|█████     | 2613/5155 [6:26:57<6:22:55,  9.04s/it] 51%|█████     | 2614/5155 [6:27:06<6:21:04,  9.00s/it] 51%|█████     | 2615/5155 [6:27:15<6:19:52,  8.97s/it] 51%|█████     | 2616/5155 [6:27:24<6:19:03,  8.96s/it] 51%|█████     | 2617/5155 [6:27:33<6:25:54,  9.12s/it] 51%|█████     | 2618/5155 [6:27:42<6:22:54,  9.06s/it] 51%|█████     | 2619/5155 [6:27:51<6:20:44,  9.01s/it] 51%|█████     | 2620/5155 [6:28:00<6:19:28,  8.98s/it]                                                       {'loss': '0.0003954', 'grad_norm': '0.02377', 'learning_rate': '0.0001146', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '144.6', 'tokens/total': 42950656, 'tokens/trainable': 13603678, 'epoch': '2.543'}
+ 51%|█████     | 2620/5155 [6:28:00<6:19:28,  8.98s/it] 51%|█████     | 2621/5155 [6:28:09<6:25:28,  9.13s/it] 51%|█████     | 2622/5155 [6:28:18<6:22:29,  9.06s/it] 51%|█████     | 2623/5155 [6:28:27<6:20:22,  9.01s/it] 51%|█████     | 2624/5155 [6:28:36<6:18:54,  8.98s/it] 51%|█████     | 2625/5155 [6:28:45<6:17:48,  8.96s/it] 51%|█████     | 2626/5155 [6:28:54<6:24:11,  9.11s/it] 51%|█████     | 2627/5155 [6:29:03<6:21:30,  9.05s/it] 51%|█████     | 2628/5155 [6:29:12<6:19:26,  9.01s/it] 51%|█████     | 2629/5155 [6:29:21<6:17:01,  8.96s/it] 51%|█████     | 2630/5155 [6:29:30<6:23:26,  9.11s/it]                                                       {'loss': '0.0005875', 'grad_norm': '0.01319', 'learning_rate': '0.0001139', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '133.4', 'tokens/total': 43114496, 'tokens/trainable': 13655501, 'epoch': '2.553'}
+ 51%|█████     | 2630/5155 [6:29:30<6:23:26,  9.11s/it] 51%|█████     | 2631/5155 [6:29:39<6:21:00,  9.06s/it] 51%|█████     | 2632/5155 [6:29:48<6:19:07,  9.02s/it] 51%|█████     | 2633/5155 [6:29:57<6:17:38,  8.98s/it] 51%|█████     | 2634/5155 [6:30:07<6:23:29,  9.13s/it] 51%|█████     | 2635/5155 [6:30:16<6:20:30,  9.06s/it] 51%|█████     | 2636/5155 [6:30:25<6:18:28,  9.02s/it] 51%|██��██     | 2637/5155 [6:30:33<6:16:58,  8.98s/it] 51%|█████     | 2638/5155 [6:30:42<6:16:01,  8.96s/it] 51%|█████     | 2639/5155 [6:30:52<6:22:12,  9.11s/it] 51%|█████     | 2640/5155 [6:31:01<6:19:23,  9.05s/it]                                                       {'loss': '0.0002609', 'grad_norm': '0.01938', 'learning_rate': '0.0001132', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '154.3', 'tokens/total': 43278336, 'tokens/trainable': 13707528, 'epoch': '2.562'}
+ 51%|█████     | 2640/5155 [6:31:01<6:19:23,  9.05s/it] 51%|█████     | 2641/5155 [6:31:10<6:17:31,  9.01s/it] 51%|█████▏    | 2642/5155 [6:31:19<6:16:01,  8.98s/it] 51%|█████▏    | 2643/5155 [6:31:28<6:21:33,  9.11s/it] 51%|█████▏    | 2644/5155 [6:31:37<6:18:38,  9.05s/it] 51%|█████▏    | 2645/5155 [6:31:46<6:16:34,  9.00s/it] 51%|█████▏    | 2646/5155 [6:31:55<6:14:53,  8.97s/it] 51%|█████▏    | 2647/5155 [6:32:03<6:13:29,  8.94s/it] 51%|█████▏    | 2648/5155 [6:32:13<6:19:33,  9.08s/it] 51%|█████▏    | 2649/5155 [6:32:22<6:16:54,  9.02s/it] 51%|█████▏    | 2650/5155 [6:32:31<6:14:49,  8.98s/it]                                                       {'loss': '0.0003634', 'grad_norm': '0.002637', 'learning_rate': '0.0001126', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '139.5', 'tokens/total': 43442176, 'tokens/trainable': 13758801, 'epoch': '2.572'}
+ 51%|█████▏    | 2650/5155 [6:32:31<6:14:49,  8.98s/it] 51%|█████▏    | 2651/5155 [6:32:40<6:13:21,  8.95s/it] 51%|█████▏    | 2652/5155 [6:32:49<6:19:05,  9.09s/it] 51%|█████▏    | 2653/5155 [6:32:58<6:16:07,  9.02s/it] 51%|█████▏    | 2654/5155 [6:33:07<6:14:10,  8.98s/it] 52%|█████▏    | 2655/5155 [6:33:16<6:12:52,  8.95s/it] 52%|█████▏    | 2656/5155 [6:33:24<6:11:27,  8.92s/it] 52%|█████▏    | 2657/5155 [6:33:34<6:17:59,  9.08s/it] 52%|█████▏    | 2658/5155 [6:33:43<6:15:09,  9.01s/it] 52%|█████▏    | 2659/5155 [6:33:52<6:13:06,  8.97s/it] 52%|█████▏    | 2660/5155 [6:34:00<6:11:26,  8.93s/it]                                                       {'loss': '0.0003456', 'grad_norm': '0.008525', 'learning_rate': '0.0001119', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '166.1', 'tokens/total': 43606016, 'tokens/trainable': 13810541, 'epoch': '2.582'}
+ 52%|█████▏    | 2660/5155 [6:34:00<6:11:26,  8.93s/it] 52%|█████▏    | 2661/5155 [6:34:10<6:17:29,  9.08s/it] 52%|█████▏    | 2662/5155 [6:34:19<6:14:34,  9.01s/it] 52%|█████▏    | 2663/5155 [6:34:28<6:12:25,  8.97s/it] 52%|█████▏    | 2664/5155 [6:34:36<6:10:48,  8.93s/it] 52%|█████▏    | 2665/5155 [6:34:45<6:09:57,  8.91s/it] 52%|█████▏    | 2666/5155 [6:34:55<6:16:19,  9.07s/it] 52%|█████▏    | 2667/5155 [6:35:04<6:13:38,  9.01s/it] 52%|█████▏    | 2668/5155 [6:35:12<6:11:23,  8.96s/it] 52%|█████▏    | 2669/5155 [6:35:21<6:10:06,  8.93s/it] 52%|█████▏    | 2670/5155 [6:35:31<6:16:31,  9.09s/it]                                                       {'loss': '0.0001074', 'grad_norm': '0.003399', 'learning_rate': '0.0001112', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '135.9', 'tokens/total': 43769856, 'tokens/trainable': 13861683, 'epoch': '2.592'}
+ 52%|█████▏    | 2670/5155 [6:35:31<6:16:31,  9.09s/it] 52%|█████▏    | 2671/5155 [6:35:40<6:13:44,  9.03s/it] 52%|█████▏    | 2672/5155 [6:35:49<6:11:26,  8.98s/it] 52%|█████▏    | 2673/5155 [6:35:57<6:10:04,  8.95s/it] 52%|█████▏    | 2674/5155 [6:36:06<6:09:08,  8.93s/it] 52%|█████▏    | 2675/5155 [6:36:16<6:15:23,  9.08s/it] 52%|█████▏    | 2676/5155 [6:36:25<6:12:16,  9.01s/it] 52%|█████▏    | 2677/5155 [6:36:33<6:10:07,  8.96s/it] 52%|█████▏    | 2678/5155 [6:36:42<6:08:38,  8.93s/it] 52%|█████▏    | 2679/5155 [6:36:52<6:14:33,  9.08s/it] 52%|█████▏    | 2680/5155 [6:37:01<6:11:43,  9.01s/it]                                                       {'loss': '0.0006772', 'grad_norm': '0.04862', 'learning_rate': '0.0001105', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '138.9', 'tokens/total': 43933696, 'tokens/trainable': 13913157, 'epoch': '2.601'}
+ 52%|█████▏    | 2680/5155 [6:37:01<6:11:43,  9.01s/it] 52%|█████▏    | 2681/5155 [6:37:09<6:09:51,  8.97s/it] 52%|█████▏    | 2682/5155 [6:37:18<6:08:28,  8.94s/it] 52%|█████▏    | 2683/5155 [6:37:27<6:07:36,  8.92s/it] 52%|█████▏    | 2684/5155 [6:37:37<6:13:04,  9.06s/it] 52%|█████▏    | 2685/5155 [6:37:45<6:10:39,  9.00s/it] 52%|█████▏    | 2686/5155 [6:37:54<6:08:57,  8.97s/it] 52%|█████▏    | 2687/5155 [6:38:03<6:07:36,  8.94s/it] 52%|█████▏    | 2688/5155 [6:38:13<6:13:28,  9.08s/it] 52%|█████▏    | 2689/5155 [6:38:21<6:10:03,  9.00s/it] 52%|█████▏    | 2690/5155 [6:38:30<6:08:11,  8.96s/it]                                                       {'loss': '0.0001993', 'grad_norm': '0.01502', 'learning_rate': '0.0001099', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '145.5', 'tokens/total': 44097536, 'tokens/trainable': 13965160, 'epoch': '2.611'}
+ 52%|█████▏    | 2690/5155 [6:38:30<6:08:11,  8.96s/it] 52%|█████▏    | 2691/5155 [6:38:39<6:06:53,  8.93s/it] 52%|█████▏    | 2692/5155 [6:38:48<6:05:45,  8.91s/it] 52%|█████▏    | 2693/5155 [6:38:57<6:11:41,  9.06s/it] 52%|█████▏    | 2694/5155 [6:39:06<6:09:03,  9.00s/it] 52%|█████▏    | 2695/5155 [6:39:15<6:07:19,  8.96s/it] 52%|█████▏    | 2696/5155 [6:39:24<6:06:04,  8.93s/it] 52%|█████▏    | 2697/5155 [6:39:33<6:11:55,  9.08s/it] 52%|█████▏    | 2698/5155 [6:39:42<6:08:56,  9.01s/it] 52%|█████▏    | 2699/5155 [6:39:51<6:07:05,  8.97s/it] 52%|█████▏    | 2700/5155 [6:40:00<6:05:44,  8.94s/it]                                                       {'loss': '5.869e-05', 'grad_norm': '0.001244', 'learning_rate': '0.0001092', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '147.3', 'tokens/total': 44261376, 'tokens/trainable': 14017024, 'epoch': '2.621'}
+ 52%|█████▏    | 2700/5155 [6:40:00<6:05:44,  8.94s/it] 52%|█████▏    | 2701/5155 [6:40:09<6:10:29,  9.06s/it] 52%|█████▏    | 2702/5155 [6:40:18<6:07:26,  8.99s/it] 52%|█████▏    | 2703/5155 [6:40:27<6:05:38,  8.95s/it] 52%|█████▏    | 2704/5155 [6:40:36<6:04:33,  8.92s/it] 52%|█████▏    | 2705/5155 [6:40:45<6:03:38,  8.91s/it] 52%|█████▏    | 2706/5155 [6:40:54<6:10:06,  9.07s/it] 53%|█████▎    | 2707/5155 [6:41:03<6:07:33,  9.01s/it] 53%|█████▎    | 2708/5155 [6:41:12<6:05:38,  8.97s/it] 53%|█████▎    | 2709/5155 [6:41:21<6:04:07,  8.93s/it] 53%|█████▎    | 2710/5155 [6:41:30<6:09:57,  9.08s/it]                                                       {'loss': '0.0001263', 'grad_norm': '0.001952', 'learning_rate': '0.0001085', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '134.4', 'tokens/total': 44425216, 'tokens/trainable': 14068784, 'epoch': '2.63'}
+ 53%|█████▎    | 2710/5155 [6:41:30<6:09:57,  9.08s/it] 53%|█████▎    | 2711/5155 [6:41:39<6:07:19,  9.02s/it] 53%|█████▎    | 2712/5155 [6:41:48<6:05:22,  8.97s/it] 53%|█████▎    | 2713/5155 [6:41:57<6:04:01,  8.94s/it] 53%|█████▎    | 2714/5155 [6:42:06<6:02:26,  8.91s/it] 53%|█████▎    | 2715/5155 [6:42:15<6:09:55,  9.10s/it] 53%|█████▎    | 2716/5155 [6:42:24<6:07:07,  9.03s/it] 53%|█████▎    | 2717/5155 [6:42:33<6:05:03,  8.98s/it] 53%|█████▎    | 2718/5155 [6:42:42<6:03:13,  8.94s/it] 53%|█████▎    | 2719/5155 [6:42:51<6:09:06,  9.09s/it] 53%|█████▎    | 2720/5155 [6:43:00<6:06:21,  9.03s/it]                                                       {'loss': '0.0001929', 'grad_norm': '0.007224', 'learning_rate': '0.0001078', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '144.7', 'tokens/total': 44589056, 'tokens/trainable': 14120598, 'epoch': '2.64'}
+ 53%|█████▎    | 2720/5155 [6:43:00<6:06:21,  9.03s/it] 53%|█████▎    | 2721/5155 [6:43:09<6:04:17,  8.98s/it] 53%|█████▎    | 2722/5155 [6:43:18<6:02:49,  8.95s/it] 53%|█████▎    | 2723/5155 [6:43:27<6:01:14,  8.91s/it] 53%|█████▎    | 2724/5155 [6:43:36<6:07:29,  9.07s/it] 53%|█████▎    | 2725/5155 [6:43:45<6:05:05,  9.01s/it] 53%|█████▎    | 2726/5155 [6:43:54<6:03:17,  8.97s/it] 53%|█████▎    | 2727/5155 [6:44:03<6:01:52,  8.94s/it] 53%|█████▎    | 2728/5155 [6:44:12<6:07:15,  9.08s/it] 53%|█████▎    | 2729/5155 [6:44:21<6:04:35,  9.02s/it] 53%|█████▎    | 2730/5155 [6:44:30<6:02:36,  8.97s/it]                                                       {'loss': '0.0001931', 'grad_norm': '0.04736', 'learning_rate': '0.0001072', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '153.1', 'tokens/total': 44752896, 'tokens/trainable': 14172560, 'epoch': '2.65'}
+ 53%|█████▎    | 2730/5155 [6:44:30<6:02:36,  8.97s/it] 53%|█████▎    | 2731/5155 [6:44:39<6:01:14,  8.94s/it] 53%|█████▎    | 2732/5155 [6:44:48<5:59:51,  8.91s/it] 53%|█████▎    | 2733/5155 [6:44:57<6:08:55,  9.14s/it] 53%|█████▎    | 2734/5155 [6:45:06<6:05:39,  9.06s/it] 53%|█████▎    | 2735/5155 [6:45:15<6:03:18,  9.01s/it] 53%|█████▎    | 2736/5155 [6:45:24<6:01:21,  8.96s/it] 53%|█████▎    | 2737/5155 [6:45:33<6:06:30,  9.09s/it] 53%|█████▎    | 2738/5155 [6:45:42<6:03:39,  9.03s/it] 53%|█████▎    | 2739/5155 [6:45:51<6:01:50,  8.99s/it] 53%|█████▎    | 2740/5155 [6:46:00<6:00:13,  8.95s/it]                                                       {'loss': '9.992e-05', 'grad_norm': '0.001373', 'learning_rate': '0.0001065', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '144.4', 'tokens/total': 44916736, 'tokens/trainable': 14223646, 'epoch': '2.659'}
+ 53%|█████▎    | 2740/5155 [6:46:00<6:00:13,  8.95s/it] 53%|█████▎    | 2741/5155 [6:46:09<5:58:57,  8.92s/it] 53%|█████▎    | 2742/5155 [6:46:18<6:04:52,  9.07s/it] 53%|█████▎    | 2743/5155 [6:46:27<6:02:12,  9.01s/it] 53%|█████▎    | 2744/5155 [6:46:36<6:00:19,  8.97s/it] 53%|█████▎    | 2745/5155 [6:46:45<5:58:45,  8.93s/it] 53%|█████▎    | 2746/5155 [6:46:54<6:04:33,  9.08s/it] 53%|█████▎    | 2747/5155 [6:47:03<6:01:50,  9.02s/it] 53%|█████▎    | 2748/5155 [6:47:12<5:59:55,  8.97s/it] 53%|█████▎    | 2749/5155 [6:47:21<5:58:19,  8.94s/it] 53%|█████▎    | 2750/5155 [6:47:30<5:57:17,  8.91s/it]                                                       {'loss': '0.0001228', 'grad_norm': '0.0005223', 'learning_rate': '0.0001058', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '142.6', 'tokens/total': 45080576, 'tokens/trainable': 14275006, 'epoch': '2.669'}
+ 53%|█████▎    | 2750/5155 [6:47:30<5:57:17,  8.91s/it] 53%|█████▎    | 2751/5155 [6:47:39<6:03:27,  9.07s/it] 53%|█████▎    | 2752/5155 [6:47:48<6:00:55,  9.01s/it] 53%|█████▎    | 2753/5155 [6:47:57<5:59:04,  8.97s/it] 53%|█████▎    | 2754/5155 [6:48:06<5:57:12,  8.93s/it] 53%|█████▎    | 2755/5155 [6:48:15<6:03:25,  9.09s/it] 53%|█████▎    | 2756/5155 [6:48:24<6:00:46,  9.02s/it] 53%|█████▎    | 2757/5155 [6:48:33<5:58:53,  8.98s/it] 54%|█████▎    | 2758/5155 [6:48:42<5:57:17,  8.94s/it] 54%|█████▎    | 2759/5155 [6:48:51<5:56:10,  8.92s/it] 54%|█████▎    | 2760/5155 [6:49:00<6:02:11,  9.07s/it]                                                       {'loss': '5.998e-05', 'grad_norm': '0.001138', 'learning_rate': '0.0001051', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '137.4', 'tokens/total': 45244416, 'tokens/trainable': 14327112, 'epoch': '2.679'}
+ 54%|█████▎    | 2760/5155 [6:49:00<6:02:11,  9.07s/it] 54%|█████▎    | 2761/5155 [6:49:09<5:59:45,  9.02s/it] 54%|█████▎    | 2762/5155 [6:49:18<5:57:57,  8.98s/it] 54%|█████▎    | 2763/5155 [6:49:27<5:56:09,  8.93s/it] 54%|█████▎    | 2764/5155 [6:49:36<6:02:01,  9.08s/it] 54%|█████▎    | 2765/5155 [6:49:45<5:59:18,  9.02s/it] 54%|█████▎    | 2766/5155 [6:49:54<5:57:28,  8.98s/it] 54%|█████▎    | 2767/5155 [6:50:03<5:55:42,  8.94s/it] 54%|█████▎    | 2768/5155 [6:50:12<5:54:37,  8.91s/it] 54%|█████▎    | 2769/5155 [6:50:21<6:01:02,  9.08s/it] 54%|█████▎    | 2770/5155 [6:50:30<5:58:28,  9.02s/it]                                                       {'loss': '0.000159', 'grad_norm': '0.0029', 'learning_rate': '0.0001045', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '155.4', 'tokens/total': 45408256, 'tokens/trainable': 14378961, 'epoch': '2.688'}
+ 54%|█████▎    | 2770/5155 [6:50:30<5:58:28,  9.02s/it] 54%|█████▍    | 2771/5155 [6:50:39<5:56:26,  8.97s/it] 54%|█████▍    | 2772/5155 [6:50:48<5:55:09,  8.94s/it] 54%|█████▍    | 2773/5155 [6:50:57<6:01:03,  9.09s/it] 54%|█████▍    | 2774/5155 [6:51:06<5:58:04,  9.02s/it] 54%|█████▍    | 2775/5155 [6:51:15<5:56:11,  8.98s/it] 54%|█████▍    | 2776/5155 [6:51:24<5:54:36,  8.94s/it] 54%|█████▍    | 2777/5155 [6:51:33<5:53:24,  8.92s/it] 54%|█████▍    | 2778/5155 [6:51:42<5:59:21,  9.07s/it] 54%|█████▍    | 2779/5155 [6:51:51<5:56:47,  9.01s/it] 54%|█████▍    | 2780/5155 [6:52:00<5:55:01,  8.97s/it]                                                       {'loss': '0.0001325', 'grad_norm': '0.0008248', 'learning_rate': '0.0001038', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '144.1', 'tokens/total': 45572096, 'tokens/trainable': 14430803, 'epoch': '2.698'}
+ 54%|█████▍    | 2780/5155 [6:52:00<5:55:01,  8.97s/it] 54%|█████▍    | 2781/5155 [6:52:09<5:53:58,  8.95s/it] 54%|█████▍    | 2782/5155 [6:52:18<5:59:45,  9.10s/it] 54%|█████▍    | 2783/5155 [6:52:27<5:56:59,  9.03s/it] 54%|█████▍    | 2784/5155 [6:52:36<5:55:02,  8.98s/it] 54%|█████▍    | 2785/5155 [6:52:45<5:53:37,  8.95s/it] 54%|█████▍    | 2786/5155 [6:52:54<5:52:12,  8.92s/it] 54%|█████▍    | 2787/5155 [6:53:03<5:58:10,  9.08s/it] 54%|█████▍    | 2788/5155 [6:53:12<5:55:37,  9.01s/it] 54%|█████▍    | 2789/5155 [6:53:21<5:53:51,  8.97s/it] 54%|█████▍    | 2790/5155 [6:53:30<5:52:13,  8.94s/it]                                                       {'loss': '0.0001164', 'grad_norm': '0.00011', 'learning_rate': '0.0001031', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '145.8', 'tokens/total': 45735936, 'tokens/trainable': 14482749, 'epoch': '2.708'}
+ 54%|█████▍    | 2790/5155 [6:53:30<5:52:13,  8.94s/it] 54%|█████▍    | 2791/5155 [6:53:39<5:58:07,  9.09s/it] 54%|█████▍    | 2792/5155 [6:53:48<5:55:31,  9.03s/it] 54%|█████▍    | 2793/5155 [6:53:57<5:53:38,  8.98s/it] 54%|█████▍    | 2794/5155 [6:54:06<5:52:09,  8.95s/it] 54%|█████▍    | 2795/5155 [6:54:14<5:50:31,  8.91s/it] 54%|█████▍    | 2796/5155 [6:54:24<5:56:38,  9.07s/it] 54%|█████▍    | 2797/5155 [6:54:33<5:54:09,  9.01s/it] 54%|█████▍    | 2798/5155 [6:54:42<5:52:25,  8.97s/it] 54%|█████▍    | 2799/5155 [6:54:51<5:51:09,  8.94s/it] 54%|█████▍    | 2800/5155 [6:55:00<5:56:29,  9.08s/it]                                                       {'loss': '0.0008218', 'grad_norm': '0.004439', 'learning_rate': '0.0001024', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '135.9', 'tokens/total': 45899776, 'tokens/trainable': 14534668, 'epoch': '2.718'}
+ 54%|█████▍    | 2800/5155 [6:55:00<5:56:29,  9.08s/it] 54%|█████▍    | 2801/5155 [6:55:09<5:53:48,  9.02s/it] 54%|█████▍    | 2802/5155 [6:55:18<5:51:59,  8.98s/it] 54%|█████▍    | 2803/5155 [6:55:27<5:50:36,  8.94s/it] 54%|█████▍    | 2804/5155 [6:55:35<5:49:42,  8.93s/it] 54%|█████▍    | 2805/5155 [6:55:45<5:55:03,  9.07s/it] 54%|█████▍    | 2806/5155 [6:55:54<5:52:31,  9.00s/it] 54%|█████▍    | 2807/5155 [6:56:03<5:51:12,  8.97s/it] 54%|█████▍    | 2808/5155 [6:56:12<5:50:19,  8.96s/it] 54%|█████▍    | 2809/5155 [6:56:21<5:56:07,  9.11s/it] 55%|█████▍    | 2810/5155 [6:56:30<5:52:54,  9.03s/it]                                                       {'loss': '0.0002198', 'grad_norm': '0.0006182', 'learning_rate': '0.0001018', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '151', 'tokens/total': 46063616, 'tokens/trainable': 14586586, 'epoch': '2.727'}
+ 55%|█████▍    | 2810/5155 [6:56:30<5:52:54,  9.03s/it] 55%|█████▍    | 2811/5155 [6:56:39<5:51:24,  9.00s/it] 55%|█████▍    | 2812/5155 [6:56:48<5:50:20,  8.97s/it] 55%|█████▍    | 2813/5155 [6:56:57<5:49:51,  8.96s/it] 55%|█████▍    | 2814/5155 [6:57:06<5:56:20,  9.13s/it] 55%|█████▍    | 2815/5155 [6:57:15<5:53:00,  9.05s/it] 55%|█████▍    | 2816/5155 [6:57:24<5:51:15,  9.01s/it] 55%|█████▍    | 2817/5155 [6:57:33<5:49:56,  8.98s/it] 55%|█████▍    | 2818/5155 [6:57:42<5:55:32,  9.13s/it] 55%|█████▍    | 2819/5155 [6:57:51<5:52:31,  9.05s/it] 55%|█████▍    | 2820/5155 [6:58:00<5:50:42,  9.01s/it]                                                       {'loss': '0.0001233', 'grad_norm': '0.00325', 'learning_rate': '0.0001011', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '139.6', 'tokens/total': 46227456, 'tokens/trainable': 14638808, 'epoch': '2.737'}
+ 55%|█████▍    | 2820/5155 [6:58:00<5:50:42,  9.01s/it] 55%|█████▍    | 2821/5155 [6:58:09<5:49:27,  8.98s/it] 55%|█████▍    | 2822/5155 [6:58:18<5:48:30,  8.96s/it] 55%|█████▍    | 2823/5155 [6:58:27<5:54:05,  9.11s/it] 55%|█████▍    | 2824/5155 [6:58:36<5:51:29,  9.05s/it] 55%|█████▍    | 2825/5155 [6:58:45<5:49:47,  9.01s/it] 55%|█████▍    | 2826/5155 [6:58:54<5:48:38,  8.98s/it] 55%|█████▍    | 2827/5155 [6:59:04<5:53:55,  9.12s/it] 55%|█████▍    | 2828/5155 [6:59:12<5:50:38,  9.04s/it] 55%|█████▍    | 2829/5155 [6:59:21<5:49:39,  9.02s/it] 55%|█████▍    | 2830/5155 [6:59:30<5:48:18,  8.99s/it]                                                       {'loss': '7.463e-05', 'grad_norm': '0.0101', 'learning_rate': '0.0001004', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '138', 'tokens/total': 46391296, 'tokens/trainable': 14690613, 'epoch': '2.747'}
+ 55%|█████▍    | 2830/5155 [6:59:30<5:48:18,  8.99s/it] 55%|█████▍    | 2831/5155 [6:59:39<5:47:16,  8.97s/it] 55%|█████▍    | 2832/5155 [6:59:49<5:52:47,  9.11s/it] 55%|█████▍    | 2833/5155 [6:59:58<5:49:43,  9.04s/it] 55%|█████▍    | 2834/5155 [7:00:06<5:48:07,  9.00s/it] 55%|█████▍    | 2835/5155 [7:00:15<5:47:12,  8.98s/it] 55%|█████▌    | 2836/5155 [7:00:25<5:52:51,  9.13s/it] 55%|█████▌    | 2837/5155 [7:00:34<5:49:37,  9.05s/it] 55%|█████▌    | 2838/5155 [7:00:43<5:47:46,  9.01s/it] 55%|█████▌    | 2839/5155 [7:00:52<5:46:34,  8.98s/it] 55%|█████▌    | 2840/5155 [7:01:00<5:45:44,  8.96s/it]                                                       {'loss': '4.61e-05', 'grad_norm': '0.002696', 'learning_rate': '9.973e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '143.9', 'tokens/total': 46555136, 'tokens/trainable': 14742309, 'epoch': '2.756'}
+ 55%|█████▌    | 2840/5155 [7:01:00<5:45:44,  8.96s/it] 55%|█████▌    | 2841/5155 [7:01:10<5:51:49,  9.12s/it] 55%|█████▌    | 2842/5155 [7:01:19<5:48:55,  9.05s/it] 55%|█████▌    | 2843/5155 [7:01:28<5:47:23,  9.02s/it] 55%|█████▌    | 2844/5155 [7:01:37<5:46:50,  9.00s/it] 55%|█████▌    | 2845/5155 [7:01:46<5:52:19,  9.15s/it] 55%|█████▌    | 2846/5155 [7:01:55<5:48:53,  9.07s/it] 55%|█████▌    | 2847/5155 [7:02:04<5:47:34,  9.04s/it] 55%|█████▌    | 2848/5155 [7:02:13<5:46:29,  9.01s/it] 55%|█████▌    | 2849/5155 [7:02:22<5:45:20,  8.99s/it] 55%|█████▌    | 2850/5155 [7:02:31<5:50:45,  9.13s/it]                                                       {'loss': '9.765e-05', 'grad_norm': '0.0002641', 'learning_rate': '9.905e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '148.9', 'tokens/total': 46718976, 'tokens/trainable': 14794633, 'epoch': '2.766'}
+ 55%|█████▌    | 2850/5155 [7:02:31<5:50:45,  9.13s/it] 55%|█████▌    | 2851/5155 [7:02:40<5:48:11,  9.07s/it] 55%|█████▌    | 2852/5155 [7:02:49<5:46:22,  9.02s/it] 55%|█████▌    | 2853/5155 [7:02:58<5:44:39,  8.98s/it] 55%|█████▌    | 2854/5155 [7:03:08<5:50:40,  9.14s/it] 55%|█████▌    | 2855/5155 [7:03:17<5:47:52,  9.08s/it] 55%|█████▌    | 2856/5155 [7:03:25<5:45:48,  9.03s/it] 55%|█████▌    | 2857/5155 [7:03:34<5:44:13,  8.99s/it] 55%|█████▌    | 2858/5155 [7:03:43<5:42:48,  8.95s/it] 55%|█████▌    | 2859/5155 [7:03:53<5:48:45,  9.11s/it] 55%|█████▌    | 2860/5155 [7:04:02<5:46:43,  9.06s/it]                                                       {'loss': '9.005e-05', 'grad_norm': '0.002383', 'learning_rate': '9.838e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '138.5', 'tokens/total': 46882816, 'tokens/trainable': 14846334, 'epoch': '2.776'}
+ 55%|█████▌    | 2860/5155 [7:04:02<5:46:43,  9.06s/it] 55%|█████▌    | 2861/5155 [7:04:11<5:45:12,  9.03s/it] 56%|█████▌    | 2862/5155 [7:04:20<5:43:18,  8.98s/it] 56%|���████▌    | 2863/5155 [7:04:29<5:48:49,  9.13s/it] 56%|█████▌    | 2864/5155 [7:04:38<5:46:24,  9.07s/it] 56%|█████▌    | 2865/5155 [7:04:47<5:44:39,  9.03s/it] 56%|█████▌    | 2866/5155 [7:04:56<5:43:13,  9.00s/it] 56%|█████▌    | 2867/5155 [7:05:05<5:41:48,  8.96s/it] 56%|█████▌    | 2868/5155 [7:05:14<5:47:28,  9.12s/it] 56%|█████▌    | 2869/5155 [7:05:23<5:45:14,  9.06s/it] 56%|█████▌    | 2870/5155 [7:05:32<5:43:30,  9.02s/it]                                                       {'loss': '0.0003537', 'grad_norm': '0.00772', 'learning_rate': '9.77e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '140.4', 'tokens/total': 47046656, 'tokens/trainable': 14898484, 'epoch': '2.785'}
+ 56%|█████▌    | 2870/5155 [7:05:32<5:43:30,  9.02s/it] 56%|█████▌    | 2871/5155 [7:05:41<5:42:33,  9.00s/it] 56%|█████▌    | 2872/5155 [7:05:50<5:48:07,  9.15s/it] 56%|█████▌    | 2873/5155 [7:05:59<5:45:51,  9.09s/it] 56%|█████▌    | 2874/5155 [7:06:08<5:43:31,  9.04s/it] 56%|█████▌    | 2875/5155 [7:06:17<5:42:05,  9.00s/it] 56%|█████▌    | 2876/5155 [7:06:27<5:47:49,  9.16s/it] 56%|█████▌    | 2877/5155 [7:06:36<5:44:51,  9.08s/it] 56%|█████▌    | 2878/5155 [7:06:45<5:42:57,  9.04s/it] 56%|█████▌    | 2879/5155 [7:06:54<5:41:39,  9.01s/it] 56%|█████▌    | 2880/5155 [7:07:02<5:40:49,  8.99s/it]                                                       {'loss': '9.263e-05', 'grad_norm': '0.001081', 'learning_rate': '9.702e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '147', 'tokens/total': 47210496, 'tokens/trainable': 14950418, 'epoch': '2.795'}
+ 56%|█████▌    | 2880/5155 [7:07:02<5:40:49,  8.99s/it] 56%|█████▌    | 2881/5155 [7:07:12<5:46:21,  9.14s/it] 56%|█████▌    | 2882/5155 [7:07:21<5:43:51,  9.08s/it] 56%|█████▌    | 2883/5155 [7:07:30<5:41:57,  9.03s/it] 56%|█████▌    | 2884/5155 [7:07:39<5:40:36,  9.00s/it] 56%|█████▌    | 2885/5155 [7:07:48<5:46:06,  9.15s/it] 56%|█████▌    | 2886/5155 [7:07:57<5:42:54,  9.07s/it] 56%|█████▌    | 2887/5155 [7:08:06<5:41:04,  9.02s/it] 56%|█████▌    | 2888/5155 [7:08:15<5:40:03,  9.00s/it] 56%|█████▌    | 2889/5155 [7:08:24<5:39:16,  8.98s/it] 56%|█████▌    | 2890/5155 [7:08:33<5:44:39,  9.13s/it]                                                       {'loss': '0.0001372', 'grad_norm': '0.0227', 'learning_rate': '9.634e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '137.5', 'tokens/total': 47374336, 'tokens/trainable': 15002347, 'epoch': '2.805'}
+ 56%|█████▌    | 2890/5155 [7:08:33<5:44:39,  9.13s/it] 56%|█████▌    | 2891/5155 [7:08:42<5:42:02,  9.06s/it] 56%|█████▌    | 2892/5155 [7:08:51<5:40:13,  9.02s/it] 56%|█████▌    | 2893/5155 [7:09:00<5:38:56,  8.99s/it] 56%|█████▌    | 2894/5155 [7:09:10<5:44:17,  9.14s/it] 56%|█████▌    | 2895/5155 [7:09:19<5:41:51,  9.08s/it] 56%|█████▌    | 2896/5155 [7:09:27<5:40:03,  9.03s/it] 56%|█████▌    | 2897/5155 [7:09:36<5:38:48,  9.00s/it] 56%|█████▌    | 2898/5155 [7:09:45<5:37:25,  8.97s/it] 56%|█████▌    | 2899/5155 [7:09:55<5:43:09,  9.13s/it] 56%|█████▋    | 2900/5155 [7:10:04<5:40:49,  9.07s/it]                                                       {'loss': '0.0002461', 'grad_norm': '0.05273', 'learning_rate': '9.567e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '137.6', 'tokens/total': 47538176, 'tokens/trainable': 15054325, 'epoch': '2.815'}
+ 56%|█████▋    | 2900/5155 [7:10:04<5:40:49,  9.07s/it] 56%|█████▋    | 2901/5155 [7:10:13<5:39:44,  9.04s/it] 56%|█████▋    | 2902/5155 [7:10:22<5:37:44,  8.99s/it] 56%|█████▋    | 2903/5155 [7:10:31<5:43:10,  9.14s/it] 56%|█████▋    | 2904/5155 [7:10:40<5:41:16,  9.10s/it] 56%|█████▋    | 2905/5155 [7:10:49<5:39:06,  9.04s/it] 56%|█████▋    | 2906/5155 [7:10:58<5:38:44,  9.04s/it] 56%|█████▋    | 2907/5155 [7:11:07<5:36:58,  8.99s/it] 56%|█████▋    | 2908/5155 [7:11:16<5:42:48,  9.15s/it] 56%|█████▋    | 2909/5155 [7:11:25<5:40:04,  9.08s/it] 56%|█████▋    | 2910/5155 [7:11:34<5:38:04,  9.04s/it]                                                       {'loss': '9.564e-05', 'grad_norm': '0.02187', 'learning_rate': '9.499e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '143.4', 'tokens/total': 47702016, 'tokens/trainable': 15105722, 'epoch': '2.824'}
+ 56%|█████▋    | 2910/5155 [7:11:34<5:38:04,  9.04s/it] 56%|█████▋    | 2911/5155 [7:11:43<5:36:32,  9.00s/it] 56%|█████▋    | 2912/5155 [7:11:53<5:41:13,  9.13s/it] 57%|█████▋    | 2913/5155 [7:12:02<5:38:52,  9.07s/it] 57%|█████▋    | 2914/5155 [7:12:10<5:37:06,  9.03s/it] 57%|█████▋    | 2915/5155 [7:12:19<5:35:59,  9.00s/it] 57%|█████▋    | 2916/5155 [7:12:28<5:34:58,  8.98s/it] 57%|█████▋    | 2917/5155 [7:12:38<5:40:24,  9.13s/it] 57%|█████▋    | 2918/5155 [7:12:47<5:37:43,  9.06s/it] 57%|█████▋    | 2919/5155 [7:12:56<5:36:09,  9.02s/it] 57%|█████▋    | 2920/5155 [7:13:05<5:35:32,  9.01s/it]                                                       {'loss': '0.0001497', 'grad_norm': '0.01738', 'learning_rate': '9.432e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '141.1', 'tokens/total': 47865856, 'tokens/trainable': 15157622, 'epoch': '2.834'}
+ 57%|█████▋    | 2920/5155 [7:13:05<5:35:32,  9.01s/it] 57%|█████▋    | 2921/5155 [7:13:14<5:41:49,  9.18s/it] 57%|█████▋    | 2922/5155 [7:13:23<5:38:56,  9.11s/it] 57%|█████▋    | 2923/5155 [7:13:32<5:36:43,  9.05s/it] 57%|█████▋    | 2924/5155 [7:13:41<5:36:02,  9.04s/it] 57%|█████▋    | 2925/5155 [7:13:50<5:34:42,  9.01s/it] 57%|█████▋    | 2926/5155 [7:13:59<5:39:44,  9.14s/it] 57%|█████▋    | 2927/5155 [7:14:08<5:36:49,  9.07s/it] 57%|█████▋    | 2928/5155 [7:14:17<5:35:38,  9.04s/it] 57%|█████▋    | 2929/5155 [7:14:26<5:34:20,  9.01s/it] 57%|█████▋    | 2930/5155 [7:14:36<5:39:45,  9.16s/it]                                                       {'loss': '0.0002273', 'grad_norm': '0.01578', 'learning_rate': '9.364e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '138.6', 'tokens/total': 48029696, 'tokens/trainable': 15208749, 'epoch': '2.844'}
+ 57%|█████▋    | 2930/5155 [7:14:36<5:39:45,  9.16s/it] 57%|█████▋    | 2931/5155 [7:14:45<5:36:23,  9.08s/it] 57%|█████▋    | 2932/5155 [7:14:54<5:34:35,  9.03s/it] 57%|█████▋    | 2933/5155 [7:15:03<5:33:15,  9.00s/it] 57%|█████▋    | 2934/5155 [7:15:11<5:32:19,  8.98s/it] 57%|█████▋    | 2935/5155 [7:15:21<5:37:43,  9.13s/it] 57%|█████▋    | 2936/5155 [7:15:30<5:35:13,  9.06s/it] 57%|█████▋    | 2937/5155 [7:15:39<5:33:28,  9.02s/it] 57%|█████▋    | 2938/5155 [7:15:48<5:32:12,  8.99s/it] 57%|█████▋    | 2939/5155 [7:15:57<5:37:19,  9.13s/it] 57%|█████▋    | 2940/5155 [7:16:06<5:34:49,  9.07s/it]                                                       {'loss': '0.0001259', 'grad_norm': '0.002465', 'learning_rate': '9.296e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '146.4', 'tokens/total': 48193536, 'tokens/trainable': 15260098, 'epoch': '2.853'}
+ 57%|█████▋    | 2940/5155 [7:16:06<5:34:49,  9.07s/it] 57%|█████▋    | 2941/5155 [7:16:15<5:32:58,  9.02s/it] 57%|█████▋    | 2942/5155 [7:16:24<5:31:38,  8.99s/it] 57%|█████▋    | 2943/5155 [7:16:33<5:30:30,  8.96s/it] 57%|█████▋    | 2944/5155 [7:16:42<5:36:21,  9.13s/it] 57%|█████▋    | 2945/5155 [7:16:51<5:34:02,  9.07s/it] 57%|█████▋    | 2946/5155 [7:17:00<5:32:39,  9.04s/it] 57%|█████▋    | 2947/5155 [7:17:09<5:31:02,  9.00s/it] 57%|█████▋    | 2948/5155 [7:17:19<5:36:35,  9.15s/it] 57%|█████▋    | 2949/5155 [7:17:28<5:34:29,  9.10s/it] 57%|█████▋    | 2950/5155 [7:17:37<5:32:28,  9.05s/it]                                                       {'loss': '7.932e-05', 'grad_norm': '0.0006195', 'learning_rate': '9.229e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '138.7', 'tokens/total': 48357376, 'tokens/trainable': 15311590, 'epoch': '2.863'}
+ 57%|█████▋    | 2950/5155 [7:17:37<5:32:28,  9.05s/it] 57%|█████▋    | 2951/5155 [7:17:45<5:30:59,  9.01s/it] 57%|█████▋    | 2952/5155 [7:17:54<5:30:09,  8.99s/it] 57%|█████▋    | 2953/5155 [7:18:04<5:35:46,  9.15s/it] 57%|█████▋    | 2954/5155 [7:18:13<5:33:05,  9.08s/it] 57%|█████▋    | 2955/5155 [7:18:22<5:30:35,  9.02s/it] 57%|█████▋    | 2956/5155 [7:18:31<5:29:49,  9.00s/it] 57%|█████▋    | 2957/5155 [7:18:40<5:36:02,  9.17s/it] 57%|█████▋    | 2958/5155 [7:18:49<5:33:18,  9.10s/it] 57%|█████▋    | 2959/5155 [7:18:58<5:30:55,  9.04s/it] 57%|█████▋    | 2960/5155 [7:19:07<5:29:31,  9.01s/it]                                                       {'loss': '0.0002256', 'grad_norm': '0.0168', 'learning_rate': '9.161e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '146.3', 'tokens/total': 48521216, 'tokens/trainable': 15363058, 'epoch': '2.873'}
+ 57%|█████▋    | 2960/5155 [7:19:07<5:29:31,  9.01s/it] 57%|█████▋    | 2961/5155 [7:19:16<5:28:35,  8.99s/it] 57%|█████▋    | 2962/5155 [7:19:25<5:33:56,  9.14s/it] 57%|█████▋    | 2963/5155 [7:19:34<5:31:31,  9.07s/it] 57%|█████▋    | 2964/5155 [7:19:43<5:29:32,  9.02s/it] 58%|█████▊    | 2965/5155 [7:19:52<5:27:40,  8.98s/it] 58%|█████▊    | 2966/5155 [7:20:02<5:33:28,  9.14s/it] 58%|█████▊    | 2967/5155 [7:20:11<5:30:55,  9.07s/it] 58%|█████▊    | 2968/5155 [7:20:20<5:29:33,  9.04s/it] 58%|█████▊    | 2969/5155 [7:20:28<5:27:50,  9.00s/it] 58%|█████▊    | 2970/5155 [7:20:37<5:27:06,  8.98s/it]                                                       {'loss': '0.0001246', 'grad_norm': '0.002207', 'learning_rate': '9.094e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '146.2', 'tokens/total': 48685056, 'tokens/trainable': 15415260, 'epoch': '2.882'}
+ 58%|█████▊    | 2970/5155 [7:20:37<5:27:06,  8.98s/it] 58%|█████▊    | 2971/5155 [7:20:47<5:32:31,  9.14s/it] 58%|█████▊    | 2972/5155 [7:20:56<5:30:06,  9.07s/it] 58%|█████▊    | 2973/5155 [7:21:05<5:28:40,  9.04s/it] 58%|█████▊    | 2974/5155 [7:21:14<5:26:59,  9.00s/it] 58%|█████▊    | 2975/5155 [7:21:23<5:26:05,  8.98s/it] 58%|█████▊    | 2976/5155 [7:21:32<5:32:24,  9.15s/it] 58%|█████▊    | 2977/5155 [7:21:41<5:29:43,  9.08s/it] 58%|█████▊    | 2978/5155 [7:21:50<5:27:46,  9.03s/it] 58%|█████▊    | 2979/5155 [7:21:59<5:26:07,  8.99s/it] 58%|█████▊    | 2980/5155 [7:22:08<5:32:16,  9.17s/it]                                                       {'loss': '0.0001335', 'grad_norm': '0.004443', 'learning_rate': '9.027e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '149.5', 'tokens/total': 48848896, 'tokens/trainable': 15466621, 'epoch': '2.892'}
+ 58%|█████▊    | 2980/5155 [7:22:08<5:32:16,  9.17s/it] 58%|█████▊    | 2981/5155 [7:22:17<5:29:50,  9.10s/it] 58%|█████▊    | 2982/5155 [7:22:26<5:27:51,  9.05s/it] 58%|█████▊    | 2983/5155 [7:22:35<5:26:01,  9.01s/it] 58%|█████▊    | 2984/5155 [7:22:45<5:32:07,  9.18s/it] 58%|█████▊    | 2985/5155 [7:22:54<5:29:05,  9.10s/it] 58%|█████▊    | 2986/5155 [7:23:03<5:27:43,  9.07s/it] 58%|█████▊    | 2987/5155 [7:23:12<5:26:25,  9.03s/it] 58%|█████▊    | 2988/5155 [7:23:21<5:24:38,  8.99s/it] 58%|█████▊    | 2989/5155 [7:23:30<5:29:50,  9.14s/it] 58%|█████▊    | 2990/5155 [7:23:39<5:27:23,  9.07s/it]                                                       {'loss': '0.0002829', 'grad_norm': '0.0007754', 'learning_rate': '8.959e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '143.2', 'tokens/total': 49012736, 'tokens/trainable': 15517914, 'epoch': '2.902'}
+ 58%|█████▊    | 2990/5155 [7:23:39<5:27:23,  9.07s/it] 58%|█████▊    | 2991/5155 [7:23:48<5:26:06,  9.04s/it] 58%|█████▊    | 2992/5155 [7:23:57<5:24:42,  9.01s/it] 58%|█████▊    | 2993/5155 [7:24:06<5:30:11,  9.16s/it] 58%|█████▊    | 2994/5155 [7:24:15<5:27:25,  9.09s/it] 58%|█████▊    | 2995/5155 [7:24:24<5:25:34,  9.04s/it] 58%|█████▊    | 2996/5155 [7:24:33<5:24:15,  9.01s/it] 58%|█████▊    | 2997/5155 [7:24:42<5:23:47,  9.00s/it] 58%|█████▊    | 2998/5155 [7:24:52<5:29:12,  9.16s/it] 58%|█████▊    | 2999/5155 [7:25:01<5:26:55,  9.10s/it] 58%|█████▊    | 3000/5155 [7:25:10<5:24:38,  9.04s/it]                                                       {'loss': '0.0004945', 'grad_norm': '0.001195', 'learning_rate': '8.892e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '148.7', 'tokens/total': 49176576, 'tokens/trainable': 15569029, 'epoch': '2.912'}
+ 58%|█████▊    | 3000/5155 [7:25:10<5:24:38,  9.04s/it] 58%|█████▊    | 3001/5155 [7:25:18<5:22:54,  8.99s/it] 58%|█████▊    | 3002/5155 [7:25:28<5:28:41,  9.16s/it] 58%|█████▊    | 3003/5155 [7:25:37<5:25:52,  9.09s/it] 58%|█████▊    | 3004/5155 [7:25:46<5:23:46,  9.03s/it] 58%|█████▊    | 3005/5155 [7:25:55<5:22:12,  8.99s/it] 58%|█████▊    | 3006/5155 [7:26:04<5:20:54,  8.96s/it] 58%|█████▊    | 3007/5155 [7:26:13<5:26:20,  9.12s/it] 58%|█████▊    | 3008/5155 [7:26:22<5:24:27,  9.07s/it] 58%|█████▊    | 3009/5155 [7:26:31<5:23:08,  9.03s/it] 58%|█████▊    | 3010/5155 [7:26:40<5:21:34,  9.00s/it]                                                       {'loss': '0.0001018', 'grad_norm': '0.004153', 'learning_rate': '8.825e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '153.8', 'tokens/total': 49340416, 'tokens/trainable': 15620849, 'epoch': '2.921'}
+ 58%|█████▊    | 3010/5155 [7:26:40<5:21:34,  9.00s/it] 58%|█████▊    | 3011/5155 [7:26:49<5:26:44,  9.14s/it] 58%|█████▊    | 3012/5155 [7:26:58<5:24:02,  9.07s/it] 58%|█████▊    | 3013/5155 [7:27:07<5:22:01,  9.02s/it] 58%|█████▊    | 3014/5155 [7:27:16<5:21:03,  9.00s/it] 58%|█████▊    | 3015/5155 [7:27:25<5:20:04,  8.97s/it] 59%|█████▊    | 3016/5155 [7:27:35<5:25:48,  9.14s/it] 59%|█████▊    | 3017/5155 [7:27:43<5:23:04,  9.07s/it] 59%|█████▊    | 3018/5155 [7:27:52<5:21:14,  9.02s/it] 59%|█████▊    | 3019/5155 [7:28:01<5:19:35,  8.98s/it] 59%|█████▊    | 3020/5155 [7:28:11<5:24:49,  9.13s/it]                                                       {'loss': '0.0001059', 'grad_norm': '0.0001155', 'learning_rate': '8.757e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '143', 'tokens/total': 49504256, 'tokens/trainable': 15671996, 'epoch': '2.931'}
+ 59%|█████▊    | 3020/5155 [7:28:11<5:24:49,  9.13s/it] 59%|█████▊    | 3021/5155 [7:28:20<5:23:00,  9.08s/it] 59%|█████▊    | 3022/5155 [7:28:29<5:21:06,  9.03s/it] 59%|█████▊    | 3023/5155 [7:28:37<5:19:06,  8.98s/it] 59%|█████▊    | 3024/5155 [7:28:46<5:18:25,  8.97s/it] 59%|█████▊    | 3025/5155 [7:28:56<5:23:43,  9.12s/it] 59%|█████▊    | 3026/5155 [7:29:05<5:21:03,  9.05s/it] 59%|█████▊    | 3027/5155 [7:29:14<5:19:23,  9.01s/it] 59%|█████▊    | 3028/5155 [7:29:23<5:18:00,  8.97s/it] 59%|█████▉    | 3029/5155 [7:29:32<5:22:51,  9.11s/it] 59%|█████▉    | 3030/5155 [7:29:41<5:20:04,  9.04s/it]                                                       {'loss': '0.0001638', 'grad_norm': '0.002451', 'learning_rate': '8.69e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '140.1', 'tokens/total': 49668096, 'tokens/trainable': 15723682, 'epoch': '2.941'}
+ 59%|█████▉    | 3030/5155 [7:29:41<5:20:04,  9.04s/it] 59%|█████▉    | 3031/5155 [7:29:50<5:17:51,  8.98s/it] 59%|█████▉    | 3032/5155 [7:29:59<5:16:30,  8.94s/it] 59%|█████▉    | 3033/5155 [7:30:07<5:15:31,  8.92s/it] 59%|█████▉    | 3034/5155 [7:30:17<5:20:52,  9.08s/it] 59%|█████▉    | 3035/5155 [7:30:26<5:18:13,  9.01s/it] 59%|█████▉    | 3036/5155 [7:30:35<5:16:41,  8.97s/it] 59%|█████▉    | 3037/5155 [7:30:43<5:15:31,  8.94s/it] 59%|█████▉    | 3038/5155 [7:30:53<5:20:44,  9.09s/it] 59%|█████▉    | 3039/5155 [7:31:02<5:17:55,  9.01s/it] 59%|█████▉    | 3040/5155 [7:31:11<5:16:08,  8.97s/it]                                                       {'loss': '5.34e-05', 'grad_norm': '0.007446', 'learning_rate': '8.623e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '151.8', 'tokens/total': 49831936, 'tokens/trainable': 15775385, 'epoch': '2.95'}
+ 59%|█████▉    | 3040/5155 [7:31:11<5:16:08,  8.97s/it] 59%|█████▉    | 3041/5155 [7:31:20<5:15:05,  8.94s/it] 59%|█████▉    | 3042/5155 [7:31:28<5:14:13,  8.92s/it] 59%|█████▉    | 3043/5155 [7:31:38<5:19:32,  9.08s/it] 59%|█████▉    | 3044/5155 [7:31:47<5:16:44,  9.00s/it] 59%|█████▉    | 3045/5155 [7:31:56<5:15:12,  8.96s/it] 59%|█████▉    | 3046/5155 [7:32:04<5:14:10,  8.94s/it] 59%|█████▉    | 3047/5155 [7:32:14<5:19:07,  9.08s/it] 59%|█████▉    | 3048/5155 [7:32:23<5:16:25,  9.01s/it] 59%|█████▉    | 3049/5155 [7:32:32<5:14:30,  8.96s/it] 59%|█████▉    | 3050/5155 [7:32:40<5:13:31,  8.94s/it]                                                       {'loss': '0.000319', 'grad_norm': '0.007727', 'learning_rate': '8.556e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '150.9', 'tokens/total': 49995776, 'tokens/trainable': 15827301, 'epoch': '2.96'}
+ 59%|█████▉    | 3050/5155 [7:32:40<5:13:31,  8.94s/it] 59%|█████▉    | 3051/5155 [7:32:49<5:12:52,  8.92s/it] 59%|█████▉    | 3052/5155 [7:32:59<5:18:22,  9.08s/it] 59%|█████▉    | 3053/5155 [7:33:08<5:15:46,  9.01s/it] 59%|█████▉    | 3054/5155 [7:33:16<5:13:45,  8.96s/it] 59%|█████▉    | 3055/5155 [7:33:25<5:12:38,  8.93s/it] 59%|█████▉    | 3056/5155 [7:33:35<5:17:51,  9.09s/it] 59%|█████▉    | 3057/5155 [7:33:44<5:15:22,  9.02s/it] 59%|█████▉    | 3058/5155 [7:33:52<5:13:21,  8.97s/it] 59%|█████▉    | 3059/5155 [7:34:01<5:12:07,  8.93s/it] 59%|█████▉    | 3060/5155 [7:34:10<5:11:15,  8.91s/it]                                                       {'loss': '0.0001514', 'grad_norm': '0.03807', 'learning_rate': '8.489e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '152.5', 'tokens/total': 50159616, 'tokens/trainable': 15879448, 'epoch': '2.97'}
+ 59%|█████▉    | 3060/5155 [7:34:10<5:11:15,  8.91s/it] 59%|█████▉    | 3061/5155 [7:34:20<5:16:55,  9.08s/it] 59%|█████▉    | 3062/5155 [7:34:28<5:14:10,  9.01s/it] 59%|█████▉    | 3063/5155 [7:34:37<5:12:26,  8.96s/it] 59%|█████▉    | 3064/5155 [7:34:46<5:11:22,  8.93s/it] 59%|█████▉    | 3065/5155 [7:34:56<5:16:26,  9.08s/it] 59%|█████▉    | 3066/5155 [7:35:05<5:13:58,  9.02s/it] 59%|█████▉    | 3067/5155 [7:35:13<5:11:55,  8.96s/it] 60%|█████▉    | 3068/5155 [7:35:22<5:10:52,  8.94s/it] 60%|█████▉    | 3069/5155 [7:35:31<5:10:05,  8.92s/it] 60%|█████▉    | 3070/5155 [7:35:41<5:15:16,  9.07s/it]                                                       {'loss': '0.0001634', 'grad_norm': '0.01793', 'learning_rate': '8.422e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '148.3', 'tokens/total': 50323456, 'tokens/trainable': 15930723, 'epoch': '2.979'}
+ 60%|█████▉    | 3070/5155 [7:35:41<5:15:16,  9.07s/it] 60%|█████▉    | 3071/5155 [7:35:49<5:12:41,  9.00s/it] 60%|█████▉    | 3072/5155 [7:35:58<5:11:06,  8.96s/it] 60%|█████▉    | 3073/5155 [7:36:07<5:10:01,  8.93s/it] 60%|█████▉    | 3074/5155 [7:36:17<5:15:02,  9.08s/it] 60%|█████▉    | 3075/5155 [7:36:25<5:12:43,  9.02s/it] 60%|█████▉    | 3076/5155 [7:36:34<5:10:58,  8.97s/it] 60%|█████▉    | 3077/5155 [7:36:43<5:09:24,  8.93s/it] 60%|█████▉    | 3078/5155 [7:36:53<5:14:20,  9.08s/it] 60%|█████▉    | 3079/5155 [7:37:01<5:11:59,  9.02s/it] 60%|█████▉    | 3080/5155 [7:37:10<5:10:21,  8.97s/it]                                                       {'loss': '0.0003045', 'grad_norm': '0.034', 'learning_rate': '8.355e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '143.3', 'tokens/total': 50487296, 'tokens/trainable': 15981910, 'epoch': '2.989'}
+ 60%|█████▉    | 3080/5155 [7:37:10<5:10:21,  8.97s/it] 60%|█████▉    | 3081/5155 [7:37:19<5:08:41,  8.93s/it] 60%|█████▉    | 3082/5155 [7:37:28<5:07:55,  8.91s/it] 60%|█████▉    | 3083/5155 [7:37:37<5:13:03,  9.07s/it] 60%|█████▉    | 3084/5155 [7:37:46<5:10:44,  9.00s/it] 60%|█████▉    | 3085/5155 [7:37:55<5:08:47,  8.95s/it] 60%|█████▉    | 3086/5155 [7:38:04<5:07:36,  8.92s/it] 60%|█████▉    | 3087/5155 [7:38:13<5:12:55,  9.08s/it] 60%|█████▉    | 3088/5155 [7:38:22<5:10:40,  9.02s/it] 60%|█████▉    | 3089/5155 [7:38:31<5:08:43,  8.97s/it] 60%|█████▉    | 3090/5155 [7:38:40<5:07:23,  8.93s/it]                                                       {'loss': '0.0003337', 'grad_norm': '0.02949', 'learning_rate': '8.289e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '154.3', 'tokens/total': 50651136, 'tokens/trainable': 16034665, 'epoch': '2.999'}
+ 60%|█████▉    | 3090/5155 [7:38:40<5:07:23,  8.93s/it] 60%|█████▉    | 3091/5155 [7:38:49<5:06:41,  8.92s/it] 60%|█████▉    | 3092/5155 [7:38:50<3:48:42,  6.65s/it] 60%|██████    | 3093/5155 [7:39:01<4:33:12,  7.95s/it][2026-02-26 06:59:47,940] [INFO] [axolotl.core.trainers.base._save:721] [PID:2758243] Saving model checkpoint to /home/jiaruil5/math_rl/mix_teachers/r3lit_rl/mix_teachers/checkpoints/math_operations/primitive_atomic_balanced_sft_50k/checkpoint-3093
+ 60%|██████    | 3094/5155 [7:39:12<5:03:11,  8.83s/it] 60%|██████    | 3095/5155 [7:39:21<5:03:16,  8.83s/it] 60%|██████    | 3096/5155 [7:39:30<5:03:23,  8.84s/it][2026-02-26 07:00:16,517] [INFO] [axolotl.core.trainers.base.evaluate:400] [PID:2758243] Running evaluation step...
+[2026-02-26 07:00:18,053] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.7328705787658691
+[2026-02-26 07:00:18,754] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.7005681991577148
+[2026-02-26 07:00:19,617] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.8618152141571045
+[2026-02-26 07:00:20,383] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.7655484676361084
+[2026-02-26 07:00:20,383] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:2758243] gather_len_batches: [17]
+
+  0%|          | 0/17 [00:00<?, ?it/s][A
+ 12%|█▏        | 2/17 [00:00<00:04,  3.17it/s][A
+ 18%|█▊        | 3/17 [00:01<00:06,  2.23it/s][A
+ 24%|██▎       | 4/17 [00:01<00:06,  1.93it/s][A
+ 29%|██▉       | 5/17 [00:02<00:07,  1.60it/s][A
+ 35%|███▌      | 6/17 [00:03<00:06,  1.60it/s][A
+ 41%|████      | 7/17 [00:03<00:06,  1.59it/s][A
+ 47%|████▋     | 8/17 [00:04<00:05,  1.59it/s][A
+ 53%|█████▎    | 9/17 [00:05<00:05,  1.43it/s][A
+ 59%|█████▉    | 10/17 [00:06<00:04,  1.49it/s][A
+ 65%|██████▍   | 11/17 [00:06<00:03,  1.51it/s][A
+ 71%|███████   | 12/17 [00:07<00:03,  1.53it/s][A
+ 76%|███████▋  | 13/17 [00:08<00:02,  1.41it/s][A
+ 82%|████████▏ | 14/17 [00:08<00:02,  1.45it/s][A
+ 88%|████████▊ | 15/17 [00:09<00:01,  1.49it/s][A
+ 94%|█████████▍| 16/17 [00:10<00:00,  1.51it/s][A
+100%|██████████| 17/17 [00:10<00:00,  1.62it/s][A                                                       
+                                               [A{'eval_loss': '6.106e-05', 'eval_runtime': '12.3', 'eval_samples_per_second': '16.26', 'eval_steps_per_second': '8.132', 'eval_ppl': '1', 'memory/max_active (GiB)': '16.73', 'memory/max_allocated (GiB)': '16.73', 'memory/device_reserved (GiB)': '20.01', 'epoch': '3.004', 'tokens/train_per_sec_per_gpu': '160.1'}
+ 60%|██████    | 3096/5155 [7:39:46<5:03:23,  8.84s/it]
+100%|██████████| 17/17 [00:10<00:00,  1.62it/s][A
+                                               [A 60%|██████    | 3097/5155 [7:39:55<7:52:51, 13.79s/it] 60%|██████    | 3098/5155 [7:40:04<7:01:48, 12.30s/it] 60%|██████    | 3099/5155 [7:40:13<6:26:03, 11.27s/it] 60%|██████    | 3100/5155 [7:40:22<6:01:01, 10.54s/it]                                                       {'loss': '0.0001649', 'grad_norm': '0.04519', 'learning_rate': '8.222e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '151.3', 'tokens/total': 50800640, 'tokens/trainable': 16081476, 'epoch': '3.008'}
+ 60%|██████    | 3100/5155 [7:40:22<6:01:01, 10.54s/it] 60%|██████    | 3101/5155 [7:40:31<5:48:15, 10.17s/it] 60%|██████    | 3102/5155 [7:40:40<5:34:26,  9.77s/it] 60%|██████    | 3103/5155 [7:40:49<5:24:50,  9.50s/it] 60%|██████    | 3104/5155 [7:40:58<5:18:11,  9.31s/it] 60%|██████    | 3105/5155 [7:41:07<5:17:44,  9.30s/it] 60%|██████    | 3106/5155 [7:41:16<5:13:08,  9.17s/it] 60%|██████    | 3107/5155 [7:41:25<5:09:44,  9.07s/it] 60%|██████    | 3108/5155 [7:41:33<5:07:28,  9.01s/it] 60%|██████    | 3109/5155 [7:41:42<5:05:49,  8.97s/it] 60%|██████    | 3110/5155 [7:41:52<5:08:55,  9.06s/it]                                                       {'loss': '8.847e-05', 'grad_norm': '0.0004338', 'learning_rate': '8.155e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '142.6', 'tokens/total': 50964480, 'tokens/trainable': 16133199, 'epoch': '3.017'}
+ 60%|██████    | 3110/5155 [7:41:52<5:08:55,  9.06s/it] 60%|██████    | 3111/5155 [7:42:00<5:06:36,  9.00s/it] 60%|██████    | 3112/5155 [7:42:09<5:05:00,  8.96s/it] 60%|██████    | 3113/5155 [7:42:18<5:03:54,  8.93s/it] 60%|██████    | 3114/5155 [7:42:27<5:07:22,  9.04s/it] 60%|██████    | 3115/5155 [7:42:36<5:05:16,  8.98s/it] 60%|██████    | 3116/5155 [7:42:45<5:03:52,  8.94s/it] 60%|██████    | 3117/5155 [7:42:54<5:02:56,  8.92s/it] 60%|██████    | 3118/5155 [7:43:03<5:02:04,  8.90s/it] 61%|██████    | 3119/5155 [7:43:12<5:06:04,  9.02s/it] 61%|██████    | 3120/5155 [7:43:21<5:04:15,  8.97s/it]                                                       {'loss': '0.0001174', 'grad_norm': '0.004263', 'learning_rate': '8.089e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '153.1', 'tokens/total': 51128320, 'tokens/trainable': 16185603, 'epoch': '3.027'}
+ 61%|██████    | 3120/5155 [7:43:21<5:04:15,  8.97s/it] 61%|██████    | 3121/5155 [7:43:30<5:02:55,  8.94s/it] 61%|██████    | 3122/5155 [7:43:39<5:01:52,  8.91s/it] 61%|██████    | 3123/5155 [7:43:48<5:05:19,  9.02s/it] 61%|██████    | 3124/5155 [7:43:57<5:03:31,  8.97s/it] 61%|██████    | 3125/5155 [7:44:06<5:02:05,  8.93s/it] 61%|██████    | 3126/5155 [7:44:14<5:01:18,  8.91s/it] 61%|██████    | 3127/5155 [7:44:23<5:00:51,  8.90s/it] 61%|██████    | 3128/5155 [7:44:33<5:04:45,  9.02s/it] 61%|██████    | 3129/5155 [7:44:41<5:02:45,  8.97s/it] 61%|██████    | 3130/5155 [7:44:50<5:01:20,  8.93s/it]                                                       {'loss': '0.0001808', 'grad_norm': '0.03785', 'learning_rate': '8.023e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '151', 'tokens/total': 51292160, 'tokens/trainable': 16237682, 'epoch': '3.037'}
+ 61%|██████    | 3130/5155 [7:44:50<5:01:20,  8.93s/it] 61%|██████    | 3131/5155 [7:44:59<5:00:34,  8.91s/it] 61%|██████    | 3132/5155 [7:45:08<5:04:17,  9.02s/it] 61%|██████    | 3133/5155 [7:45:17<5:02:35,  8.98s/it] 61%|██████    | 3134/5155 [7:45:26<5:00:57,  8.93s/it] 61%|██████    | 3135/5155 [7:45:35<4:59:52,  8.91s/it] 61%|██████    | 3136/5155 [7:45:44<4:59:11,  8.89s/it] 61%|██████    | 3137/5155 [7:45:53<5:03:10,  9.01s/it] 61%|██████    | 3138/5155 [7:46:02<5:01:21,  8.96s/it] 61%|██████    | 3139/5155 [7:46:11<4:59:51,  8.92s/it] 61%|██████    | 3140/5155 [7:46:20<4:59:03,  8.91s/it]                                                       {'loss': '8.843e-05', 'grad_norm': '0.03795', 'learning_rate': '7.956e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '147.4', 'tokens/total': 51456000, 'tokens/trainable': 16290232, 'epoch': '3.047'}
+ 61%|██████    | 3140/5155 [7:46:20<4:59:03,  8.91s/it] 61%|██████    | 3141/5155 [7:46:29<5:02:47,  9.02s/it] 61%|██████    | 3142/5155 [7:46:38<5:00:50,  8.97s/it] 61%|██████    | 3143/5155 [7:46:47<4:59:31,  8.93s/it] 61%|██████    | 3144/5155 [7:46:56<4:58:42,  8.91s/it] 61%|██████    | 3145/5155 [7:47:04<4:57:59,  8.90s/it] 61%|██████    | 3146/5155 [7:47:14<5:01:46,  9.01s/it] 61%|██████    | 3147/5155 [7:47:23<4:59:59,  8.96s/it] 61%|██████    | 3148/5155 [7:47:31<4:58:38,  8.93s/it] 61%|██████    | 3149/5155 [7:47:40<4:57:45,  8.91s/it] 61%|██████    | 3150/5155 [7:47:50<5:01:15,  9.02s/it]                                                       {'loss': '7.705e-05', 'grad_norm': '0.001332', 'learning_rate': '7.89e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '155.5', 'tokens/total': 51619840, 'tokens/trainable': 16342640, 'epoch': '3.056'}
+ 61%|██████    | 3150/5155 [7:47:50<5:01:15,  9.02s/it] 61%|██████    | 3151/5155 [7:47:58<4:59:22,  8.96s/it] 61%|██████    | 3152/5155 [7:48:07<4:58:16,  8.93s/it] 61%|██████    | 3153/5155 [7:48:16<4:57:20,  8.91s/it] 61%|██████    | 3154/5155 [7:48:25<4:56:38,  8.89s/it] 61%|██████    | 3155/5155 [7:48:34<5:00:30,  9.02s/it] 61%|██████    | 3156/5155 [7:48:43<4:58:40,  8.96s/it] 61%|██████    | 3157/5155 [7:48:52<4:57:26,  8.93s/it] 61%|██████▏   | 3158/5155 [7:49:01<4:56:23,  8.91s/it] 61%|██████▏   | 3159/5155 [7:49:10<4:59:40,  9.01s/it] 61%|██████▏   | 3160/5155 [7:49:19<4:58:01,  8.96s/it]                                                       {'loss': '8.3e-05', 'grad_norm': '0.000122', 'learning_rate': '7.824e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '136.5', 'tokens/total': 51783680, 'tokens/trainable': 16393867, 'epoch': '3.066'}
+ 61%|██████▏   | 3160/5155 [7:49:19<4:58:01,  8.96s/it] 61%|██████▏   | 3161/5155 [7:49:28<4:56:56,  8.94s/it] 61%|██████▏   | 3162/5155 [7:49:37<4:56:12,  8.92s/it] 61%|██████▏   | 3163/5155 [7:49:46<4:55:33,  8.90s/it] 61%|██████▏   | 3164/5155 [7:49:55<4:59:01,  9.01s/it] 61%|██████▏   | 3165/5155 [7:50:04<4:57:26,  8.97s/it] 61%|██████▏   | 3166/5155 [7:50:13<4:56:05,  8.93s/it] 61%|██████▏   | 3167/5155 [7:50:21<4:55:15,  8.91s/it] 61%|██████▏   | 3168/5155 [7:50:31<4:58:28,  9.01s/it] 61%|██████▏   | 3169/5155 [7:50:39<4:56:23,  8.95s/it] 61%|██████▏   | 3170/5155 [7:50:48<4:55:28,  8.93s/it]                                                       {'loss': '0.00018', 'grad_norm': '0.001819', 'learning_rate': '7.758e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '151.6', 'tokens/total': 51947520, 'tokens/trainable': 16446250, 'epoch': '3.076'}
+ 61%|██████▏   | 3170/5155 [7:50:48<4:55:28,  8.93s/it] 62%|██████▏   | 3171/5155 [7:50:57<4:54:47,  8.92s/it] 62%|██████▏   | 3172/5155 [7:51:06<4:58:17,  9.03s/it] 62%|██████▏   | 3173/5155 [7:51:15<4:56:20,  8.97s/it] 62%|██████▏   | 3174/5155 [7:51:24<4:55:01,  8.94s/it] 62%|██████▏   | 3175/5155 [7:51:33<4:54:13,  8.92s/it] 62%|██████▏   | 3176/5155 [7:51:42<4:53:31,  8.90s/it] 62%|██████▏   | 3177/5155 [7:51:51<4:57:17,  9.02s/it] 62%|██████▏   | 3178/5155 [7:52:00<4:55:17,  8.96s/it] 62%|██████▏   | 3179/5155 [7:52:09<4:54:04,  8.93s/it] 62%|██████▏   | 3180/5155 [7:52:18<4:53:13,  8.91s/it]                                                       {'loss': '4.489e-05', 'grad_norm': '0.003512', 'learning_rate': '7.692e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '152.5', 'tokens/total': 52111360, 'tokens/trainable': 16498691, 'epoch': '3.085'}
+ 62%|██████▏   | 3180/5155 [7:52:18<4:53:13,  8.91s/it] 62%|██████▏   | 3181/5155 [7:52:27<4:56:57,  9.03s/it] 62%|██████▏   | 3182/5155 [7:52:36<4:54:50,  8.97s/it] 62%|██████▏   | 3183/5155 [7:52:45<4:53:36,  8.93s/it] 62%|██████▏   | 3184/5155 [7:52:54<4:52:47,  8.91s/it] 62%|██████▏   | 3185/5155 [7:53:02<4:52:02,  8.89s/it] 62%|██████▏   | 3186/5155 [7:53:12<4:55:29,  9.00s/it] 62%|██████▏   | 3187/5155 [7:53:21<4:53:52,  8.96s/it] 62%|██████▏   | 3188/5155 [7:53:29<4:52:41,  8.93s/it] 62%|██████▏   | 3189/5155 [7:53:38<4:51:44,  8.90s/it] 62%|██████▏   | 3190/5155 [7:53:48<4:55:16,  9.02s/it]                                                       {'loss': '8.429e-05', 'grad_norm': '0.000674', 'learning_rate': '7.626e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '137.9', 'tokens/total': 52275200, 'tokens/trainable': 16550603, 'epoch': '3.095'}
+ 62%|██████▏   | 3190/5155 [7:53:48<4:55:16,  9.02s/it] 62%|██████▏   | 3191/5155 [7:53:56<4:53:23,  8.96s/it] 62%|██████▏   | 3192/5155 [7:54:05<4:52:10,  8.93s/it] 62%|██████▏   | 3193/5155 [7:54:14<4:51:22,  8.91s/it] 62%|██████▏   | 3194/5155 [7:54:23<4:50:32,  8.89s/it] 62%|██████▏   | 3195/5155 [7:54:32<4:54:15,  9.01s/it] 62%|██████▏   | 3196/5155 [7:54:41<4:52:32,  8.96s/it] 62%|██████▏   | 3197/5155 [7:54:50<4:51:31,  8.93s/it] 62%|██████▏   | 3198/5155 [7:54:59<4:50:20,  8.90s/it] 62%|██████▏   | 3199/5155 [7:55:08<4:53:56,  9.02s/it] 62%|██████▏   | 3200/5155 [7:55:17<4:52:19,  8.97s/it]                                                       {'loss': '6.575e-05', 'grad_norm': '0.00137', 'learning_rate': '7.56e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '156.6', 'tokens/total': 52439040, 'tokens/trainable': 16602365, 'epoch': '3.105'}
+ 62%|██████▏   | 3200/5155 [7:55:17<4:52:19,  8.97s/it] 62%|████��█▏   | 3201/5155 [7:55:26<4:51:07,  8.94s/it] 62%|██████▏   | 3202/5155 [7:55:35<4:50:14,  8.92s/it] 62%|██████▏   | 3203/5155 [7:55:43<4:49:05,  8.89s/it] 62%|██████▏   | 3204/5155 [7:55:53<4:52:54,  9.01s/it] 62%|██████▏   | 3205/5155 [7:56:02<4:51:18,  8.96s/it] 62%|██████▏   | 3206/5155 [7:56:10<4:50:03,  8.93s/it] 62%|██████▏   | 3207/5155 [7:56:19<4:48:50,  8.90s/it] 62%|██████▏   | 3208/5155 [7:56:29<4:52:36,  9.02s/it] 62%|██████▏   | 3209/5155 [7:56:37<4:50:54,  8.97s/it] 62%|██████▏   | 3210/5155 [7:56:46<4:49:39,  8.94s/it]                                                       {'loss': '8.04e-05', 'grad_norm': '0.003693', 'learning_rate': '7.495e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '141', 'tokens/total': 52602880, 'tokens/trainable': 16654435, 'epoch': '3.114'}
+ 62%|██████▏   | 3210/5155 [7:56:46<4:49:39,  8.94s/it] 62%|██████▏   | 3211/5155 [7:56:55<4:48:36,  8.91s/it] 62%|██████▏   | 3212/5155 [7:57:04<4:47:44,  8.89s/it] 62%|██████▏   | 3213/5155 [7:57:13<4:51:36,  9.01s/it] 62%|██████▏   | 3214/5155 [7:57:22<4:50:01,  8.97s/it] 62%|██████▏   | 3215/5155 [7:57:31<4:48:54,  8.94s/it] 62%|██████▏   | 3216/5155 [7:57:40<4:47:41,  8.90s/it] 62%|██████▏   | 3217/5155 [7:57:49<4:51:12,  9.02s/it] 62%|██████▏   | 3218/5155 [7:57:58<4:49:30,  8.97s/it] 62%|██████▏   | 3219/5155 [7:58:07<4:48:20,  8.94s/it] 62%|██████▏   | 3220/5155 [7:58:16<4:47:34,  8.92s/it]                                                       {'loss': '7.618e-05', 'grad_norm': '0.0002694', 'learning_rate': '7.429e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '159', 'tokens/total': 52766720, 'tokens/trainable': 16705983, 'epoch': '3.124'}
+ 62%|██████▏   | 3220/5155 [7:58:16<4:47:34,  8.92s/it] 62%|██████▏   | 3221/5155 [7:58:25<4:48:48,  8.96s/it] 63%|██████▎   | 3222/5155 [7:58:34<4:52:28,  9.08s/it] 63%|██████▎   | 3223/5155 [7:58:43<4:50:43,  9.03s/it] 63%|██████▎   | 3224/5155 [7:58:52<4:49:35,  9.00s/it] 63%|██████▎   | 3225/5155 [7:59:01<4:48:46,  8.98s/it] 63%|██████▎   | 3226/5155 [7:59:10<4:52:28,  9.10s/it] 63%|██████▎   | 3227/5155 [7:59:19<4:50:40,  9.05s/it] 63%|██████▎   | 3228/5155 [7:59:28<4:49:09,  9.00s/it] 63%|██████▎   | 3229/5155 [7:59:37<4:48:15,  8.98s/it] 63%|██████▎   | 3230/5155 [7:59:46<4:47:24,  8.96s/it]                                                       {'loss': '4.648e-05', 'grad_norm': '0.0007724', 'learning_rate': '7.364e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '142.2', 'tokens/total': 52930560, 'tokens/trainable': 16757171, 'epoch': '3.134'}
+ 63%|██████▎   | 3230/5155 [7:59:46<4:47:24,  8.96s/it] 63%|██████▎   | 3231/5155 [7:59:55<4:51:21,  9.09s/it] 63%|██████▎   | 3232/5155 [8:00:04<4:49:39,  9.04s/it] 63%|██████▎   | 3233/5155 [8:00:13<4:48:26,  9.00s/it] 63%|██████▎   | 3234/5155 [8:00:22<4:47:31,  8.98s/it] 63%|██████▎   | 3235/5155 [8:00:31<4:51:07,  9.10s/it] 63%|██████▎   | 3236/5155 [8:00:40<4:48:51,  9.03s/it] 63%|██████▎   | 3237/5155 [8:00:49<4:47:37,  9.00s/it] 63%|██████▎   | 3238/5155 [8:00:58<4:46:45,  8.98s/it] 63%|██████▎   | 3239/5155 [8:01:07<4:46:06,  8.96s/it] 63%|██████▎   | 3240/5155 [8:01:16<4:49:48,  9.08s/it]                                                       {'loss': '0.0001121', 'grad_norm': '0.004681', 'learning_rate': '7.299e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '148.8', 'tokens/total': 53094400, 'tokens/trainable': 16808844, 'epoch': '3.144'}
+ 63%|██████▎   | 3240/5155 [8:01:16<4:49:48,  9.08s/it] 63%|██████▎   | 3241/5155 [8:01:25<4:48:04,  9.03s/it] 63%|██████▎   | 3242/5155 [8:01:34<4:46:57,  9.00s/it] 63%|██████▎   | 3243/5155 [8:01:43<4:46:06,  8.98s/it] 63%|██████▎   | 3244/5155 [8:01:53<4:49:40,  9.09s/it] 63%|██████▎   | 3245/5155 [8:02:01<4:46:59,  9.02s/it] 63%|██████▎   | 3246/5155 [8:02:10<4:45:58,  8.99s/it] 63%|██████▎   | 3247/5155 [8:02:19<4:45:19,  8.97s/it] 63%|██████▎   | 3248/5155 [8:02:28<4:44:47,  8.96s/it] 63%|██████▎   | 3249/5155 [8:02:38<4:48:36,  9.09s/it] 63%|██████▎   | 3250/5155 [8:02:47<4:46:51,  9.04s/it]                                                       {'loss': '0.0001483', 'grad_norm': '0.0002297', 'learning_rate': '7.234e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '150.3', 'tokens/total': 53258240, 'tokens/trainable': 16861664, 'epoch': '3.153'}
+ 63%|██████▎   | 3250/5155 [8:02:47<4:46:51,  9.04s/it] 63%|██████▎   | 3251/5155 [8:02:55<4:45:35,  9.00s/it] 63%|██████▎   | 3252/5155 [8:03:04<4:44:45,  8.98s/it] 63%|██████▎   | 3253/5155 [8:03:14<4:48:18,  9.10s/it] 63%|██████▎   | 3254/5155 [8:03:23<4:46:34,  9.05s/it] 63%|██████▎   | 3255/5155 [8:03:32<4:45:13,  9.01s/it] 63%|██████▎   | 3256/5155 [8:03:40<4:43:54,  8.97s/it] 63%|██████▎   | 3257/5155 [8:03:49<4:43:25,  8.96s/it] 63%|██████▎   | 3258/5155 [8:03:59<4:47:04,  9.08s/it] 63%|██████▎   | 3259/5155 [8:04:08<4:45:25,  9.03s/it] 63%|██████▎   | 3260/5155 [8:04:17<4:44:18,  9.00s/it]                                                       {'loss': '4.449e-05', 'grad_norm': '0.0001018', 'learning_rate': '7.169e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '145.7', 'tokens/total': 53422080, 'tokens/trainable': 16913224, 'epoch': '3.163'}
+ 63%|██████▎   | 3260/5155 [8:04:17<4:44:18,  9.00s/it] 63%|██████▎   | 3261/5155 [8:04:26<4:43:26,  8.98s/it] 63%|██████▎   | 3262/5155 [8:04:35<4:47:09,  9.10s/it] 63%|██████▎   | 3263/5155 [8:04:44<4:45:18,  9.05s/it] 63%|██████▎   | 3264/5155 [8:04:53<4:43:58,  9.01s/it] 63%|██████▎   | 3265/5155 [8:05:02<4:43:04,  8.99s/it] 63%|██████▎   | 3266/5155 [8:05:11<4:42:06,  8.96s/it] 63%|██████▎   | 3267/5155 [8:05:20<4:46:01,  9.09s/it] 63%|██████▎   | 3268/5155 [8:05:29<4:44:23,  9.04s/it] 63%|██████▎   | 3269/5155 [8:05:38<4:43:21,  9.01s/it] 63%|██████▎   | 3270/5155 [8:05:47<4:42:19,  8.99s/it]                                                       {'loss': '0.0001156', 'grad_norm': '0.00782', 'learning_rate': '7.104e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '139.9', 'tokens/total': 53585920, 'tokens/trainable': 16965318, 'epoch': '3.173'}
+ 63%|██████▎   | 3270/5155 [8:05:47<4:42:19,  8.99s/it] 63%|██████▎   | 3271/5155 [8:05:56<4:45:55,  9.11s/it] 63%|██████▎   | 3272/5155 [8:06:05<4:44:19,  9.06s/it] 63%|██████▎   | 3273/5155 [8:06:14<4:42:56,  9.02s/it] 64%|██████▎   | 3274/5155 [8:06:23<4:41:55,  8.99s/it] 64%|██████▎   | 3275/5155 [8:06:32<4:41:09,  8.97s/it] 64%|██████▎   | 3276/5155 [8:06:41<4:44:25,  9.08s/it] 64%|██████▎   | 3277/5155 [8:06:50<4:42:18,  9.02s/it] 64%|██████▎   | 3278/5155 [8:06:59<4:40:32,  8.97s/it] 64%|██████▎   | 3279/5155 [8:07:08<4:39:26,  8.94s/it] 64%|██████▎   | 3280/5155 [8:07:17<4:42:41,  9.05s/it]                                                       {'loss': '4.466e-05', 'grad_norm': '0.0002718', 'learning_rate': '7.039e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '146.3', 'tokens/total': 53749760, 'tokens/trainable': 17017312, 'epoch': '3.182'}
+ 64%|██████▎   | 3280/5155 [8:07:17<4:42:41,  9.05s/it] 64%|██████▎   | 3281/5155 [8:07:26<4:40:50,  8.99s/it] 64%|██████▎   | 3282/5155 [8:07:35<4:39:23,  8.95s/it] 64%|██████▎   | 3283/5155 [8:07:44<4:38:24,  8.92s/it] 64%|██████▎   | 3284/5155 [8:07:53<4:37:39,  8.90s/it] 64%|██████▎   | 3285/5155 [8:08:02<4:41:04,  9.02s/it] 64%|██████▎   | 3286/5155 [8:08:11<4:39:24,  8.97s/it] 64%|██████▍   | 3287/5155 [8:08:20<4:38:06,  8.93s/it] 64%|██████▍   | 3288/5155 [8:08:28<4:37:17,  8.91s/it] 64%|██████▍   | 3289/5155 [8:08:38<4:40:36,  9.02s/it] 64%|██████▍   | 3290/5155 [8:08:47<4:38:43,  8.97s/it]                                                       {'loss': '8.744e-05', 'grad_norm': '0.001452', 'learning_rate': '6.974e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '148.9', 'tokens/total': 53913600, 'tokens/trainable': 17069196, 'epoch': '3.192'}
+ 64%|██████▍   | 3290/5155 [8:08:47<4:38:43,  8.97s/it] 64%|██████▍   | 3291/5155 [8:08:55<4:37:30,  8.93s/it] 64%|██████▍   | 3292/5155 [8:09:04<4:36:37,  8.91s/it] 64%|██████▍   | 3293/5155 [8:09:13<4:36:00,  8.89s/it] 64%|██████▍   | 3294/5155 [8:09:22<4:39:32,  9.01s/it] 64%|██████▍   | 3295/5155 [8:09:31<4:37:40,  8.96s/it] 64%|██████▍   | 3296/5155 [8:09:40<4:36:35,  8.93s/it] 64%|██████▍   | 3297/5155 [8:09:49<4:35:50,  8.91s/it] 64%|██████▍   | 3298/5155 [8:09:58<4:39:16,  9.02s/it] 64%|██████▍   | 3299/5155 [8:10:07<4:37:19,  8.97s/it] 64%|██████▍   | 3300/5155 [8:10:16<4:36:09,  8.93s/it]                                                       {'loss': '4.351e-05', 'grad_norm': '0.0004776', 'learning_rate': '6.91e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '140', 'tokens/total': 54077440, 'tokens/trainable': 17120996, 'epoch': '3.202'}
+ 64%|██████▍   | 3300/5155 [8:10:16<4:36:09,  8.93s/it] 64%|██████▍   | 3301/5155 [8:10:25<4:35:30,  8.92s/it] 64%|██████▍   | 3302/5155 [8:10:34<4:34:49,  8.90s/it] 64%|██████▍   | 3303/5155 [8:10:43<4:38:08,  9.01s/it] 64%|██████▍   | 3304/5155 [8:10:52<4:36:16,  8.96s/it] 64%|██████▍   | 3305/5155 [8:11:01<4:35:17,  8.93s/it] 64%|██████▍   | 3306/5155 [8:11:09<4:34:34,  8.91s/it] 64%|██████▍   | 3307/5155 [8:11:19<4:37:54,  9.02s/it] 64%|██████▍   | 3308/5155 [8:11:28<4:35:54,  8.96s/it] 64%|██████▍   | 3309/5155 [8:11:36<4:34:51,  8.93s/it] 64%|██████▍   | 3310/5155 [8:11:45<4:33:42,  8.90s/it]                                                       {'loss': '4.36e-05', 'grad_norm': '0.001934', 'learning_rate': '6.846e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '137.9', 'tokens/total': 54241280, 'tokens/trainable': 17172896, 'epoch': '3.211'}
+ 64%|██████▍   | 3310/5155 [8:11:45<4:33:42,  8.90s/it] 64%|██████▍   | 3311/5155 [8:11:54<4:33:15,  8.89s/it] 64%|██████▍   | 3312/5155 [8:12:03<4:36:43,  9.01s/it] 64%|██████▍   | 3313/5155 [8:12:12<4:34:53,  8.95s/it] 64%|██████▍   | 3314/5155 [8:12:21<4:33:46,  8.92s/it] 64%|██████▍   | 3315/5155 [8:12:30<4:32:55,  8.90s/it] 64%|██████▍   | 3316/5155 [8:12:39<4:36:14,  9.01s/it] 64%|██████▍   | 3317/5155 [8:12:48<4:34:18,  8.95s/it] 64%|██████▍   | 3318/5155 [8:12:57<4:32:51,  8.91s/it] 64%|██████▍   | 3319/5155 [8:13:06<4:32:13,  8.90s/it] 64%|██████▍   | 3320/5155 [8:13:15<4:31:44,  8.89s/it]                                                       {'loss': '4.493e-05', 'grad_norm': '0.00193', 'learning_rate': '6.781e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '145.9', 'tokens/total': 54405120, 'tokens/trainable': 17223944, 'epoch': '3.221'}
+ 64%|██████▍   | 3320/5155 [8:13:15<4:31:44,  8.89s/it] 64%|██████▍   | 3321/5155 [8:13:24<4:35:19,  9.01s/it] 64%|██████▍   | 3322/5155 [8:13:33<4:33:26,  8.95s/it] 64%|██████▍   | 3323/5155 [8:13:42<4:32:24,  8.92s/it] 64%|██████▍   | 3324/5155 [8:13:50<4:31:39,  8.90s/it] 65%|██████▍   | 3325/5155 [8:14:00<4:34:53,  9.01s/it] 65%|██████▍   | 3326/5155 [8:14:09<4:33:02,  8.96s/it] 65%|██████▍   | 3327/5155 [8:14:17<4:31:48,  8.92s/it] 65%|██████▍   | 3328/5155 [8:14:26<4:30:53,  8.90s/it] 65%|██████▍   | 3329/5155 [8:14:35<4:30:18,  8.88s/it] 65%|██████▍   | 3330/5155 [8:14:44<4:33:23,  8.99s/it]                                                       {'loss': '1.678e-05', 'grad_norm': '0.0002634', 'learning_rate': '6.717e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '142.2', 'tokens/total': 54568960, 'tokens/trainable': 17276000, 'epoch': '3.231'}
+ 65%|██████▍   | 3330/5155 [8:14:44<4:33:23,  8.99s/it] 65%|██████▍   | 3331/5155 [8:14:53<4:32:10,  8.95s/it] 65%|██████▍   | 3332/5155 [8:15:02<4:31:00,  8.92s/it] 65%|██████▍   | 3333/5155 [8:15:11<4:30:08,  8.90s/it] 65%|██████▍   | 3334/5155 [8:15:20<4:33:32,  9.01s/it] 65%|██████▍   | 3335/5155 [8:15:29<4:31:51,  8.96s/it] 65%|██████▍   | 3336/5155 [8:15:38<4:30:41,  8.93s/it] 65%|██████▍   | 3337/5155 [8:15:47<4:29:49,  8.90s/it] 65%|██████▍   | 3338/5155 [8:15:56<4:29:16,  8.89s/it] 65%|██████▍   | 3339/5155 [8:16:05<4:32:36,  9.01s/it] 65%|██████▍   | 3340/5155 [8:16:14<4:30:53,  8.96s/it]                                                       {'loss': '2.253e-05', 'grad_norm': '0.002525', 'learning_rate': '6.653e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '145.5', 'tokens/total': 54732800, 'tokens/trainable': 17328084, 'epoch': '3.24'}
+ 65%|██████▍   | 3340/5155 [8:16:14<4:30:53,  8.96s/it] 65%|██████▍   | 3341/5155 [8:16:22<4:29:43,  8.92s/it] 65%|██████▍   | 3342/5155 [8:16:31<4:28:58,  8.90s/it] 65%|██████▍   | 3343/5155 [8:16:41<4:32:27,  9.02s/it] 65%|██████▍   | 3344/5155 [8:16:49<4:30:44,  8.97s/it] 65%|██████▍   | 3345/5155 [8:16:58<4:29:17,  8.93s/it] 65%|██████▍   | 3346/5155 [8:17:07<4:28:34,  8.91s/it] 65%|██████▍   | 3347/5155 [8:17:16<4:27:59,  8.89s/it] 65%|██████▍   | 3348/5155 [8:17:25<4:31:17,  9.01s/it] 65%|██████▍   | 3349/5155 [8:17:34<4:29:24,  8.95s/it] 65%|██████▍   | 3350/5155 [8:17:43<4:28:16,  8.92s/it]                                                       {'loss': '0.0001235', 'grad_norm': '0.0001369', 'learning_rate': '6.59e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '148.4', 'tokens/total': 54896640, 'tokens/trainable': 17380688, 'epoch': '3.25'}
+ 65%|██████▍   | 3350/5155 [8:17:43<4:28:16,  8.92s/it] 65%|██████▌   | 3351/5155 [8:17:52<4:27:37,  8.90s/it] 65%|██████▌   | 3352/5155 [8:18:01<4:30:56,  9.02s/it] 65%|██████▌   | 3353/5155 [8:18:10<4:29:06,  8.96s/it] 65%|██████▌   | 3354/5155 [8:18:19<4:27:58,  8.93s/it] 65%|██████▌   | 3355/5155 [8:18:28<4:27:13,  8.91s/it] 65%|██████▌   | 3356/5155 [8:18:37<4:26:41,  8.89s/it] 65%|██████▌   | 3357/5155 [8:18:46<4:29:56,  9.01s/it] 65%|██████▌   | 3358/5155 [8:18:55<4:28:17,  8.96s/it] 65%|██████▌   | 3359/5155 [8:19:03<4:27:13,  8.93s/it] 65%|██████▌   | 3360/5155 [8:19:12<4:26:27,  8.91s/it]                                                       {'loss': '3.438e-05', 'grad_norm': '0.02155', 'learning_rate': '6.526e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '145', 'tokens/total': 55060480, 'tokens/trainable': 17432020, 'epoch': '3.26'}
+ 65%|██████▌   | 3360/5155 [8:19:12<4:26:27,  8.91s/it] 65%|██████▌   | 3361/5155 [8:19:22<4:29:38,  9.02s/it] 65%|██████▌   | 3362/5155 [8:19:30<4:27:47,  8.96s/it] 65%|██████▌   | 3363/5155 [8:19:39<4:26:31,  8.92s/it] 65%|██████▌   | 3364/5155 [8:19:48<4:25:34,  8.90s/it] 65%|██████▌   | 3365/5155 [8:19:57<4:25:09,  8.89s/it] 65%|██████▌   | 3366/5155 [8:20:06<4:28:40,  9.01s/it] 65%|██████▌   | 3367/5155 [8:20:15<4:27:15,  8.97s/it] 65%|██████▌   | 3368/5155 [8:20:24<4:25:42,  8.92s/it] 65%|██████▌   | 3369/5155 [8:20:33<4:24:55,  8.90s/it] 65%|██████▌   | 3370/5155 [8:20:42<4:28:06,  9.01s/it]                                                       {'loss': '4.851e-05', 'grad_norm': '5.958e-05', 'learning_rate': '6.463e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '132.6', 'tokens/total': 55224320, 'tokens/trainable': 17483384, 'epoch': '3.27'}
+ 65%|██████▌   | 3370/5155 [8:20:42<4:28:06,  9.01s/it] 65%|██████▌   | 3371/5155 [8:20:51<4:26:33,  8.96s/it] 65%|██████▌   | 3372/5155 [8:21:00<4:25:24,  8.93s/it] 65%|██████▌   | 3373/5155 [8:21:09<4:24:30,  8.91s/it] 65%|██████▌   | 3374/5155 [8:21:18<4:23:57,  8.89s/it] 65%|██████▌   | 3375/5155 [8:21:27<4:27:22,  9.01s/it] 65%|██████▌   | 3376/5155 [8:21:36<4:25:46,  8.96s/it] 66%|██████▌   | 3377/5155 [8:21:44<4:24:28,  8.92s/it] 66%|██████▌   | 3378/5155 [8:21:53<4:23:37,  8.90s/it] 66%|██████▌   | 3379/5155 [8:22:03<4:26:57,  9.02s/it] 66%|██████▌   | 3380/5155 [8:22:11<4:25:11,  8.96s/it]                                                       {'loss': '4.01e-05', 'grad_norm': '0.001033', 'learning_rate': '6.399e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '158', 'tokens/total': 55388160, 'tokens/trainable': 17535484, 'epoch': '3.279'}
+ 66%|██████▌   | 3380/5155 [8:22:11<4:25:11,  8.96s/it] 66%|██████▌   | 3381/5155 [8:22:20<4:24:00,  8.93s/it] 66%|██████▌   | 3382/5155 [8:22:29<4:23:17,  8.91s/it] 66%|██████▌   | 3383/5155 [8:22:38<4:22:42,  8.90s/it] 66%|██████▌   | 3384/5155 [8:22:47<4:25:45,  9.00s/it] 66%|██████▌   | 3385/5155 [8:22:56<4:23:59,  8.95s/it] 66%|██████▌   | 3386/5155 [8:23:05<4:22:54,  8.92s/it] 66%|██████▌   | 3387/5155 [8:23:14<4:22:11,  8.90s/it] 66%|██████▌   | 3388/5155 [8:23:23<4:25:16,  9.01s/it] 66%|██████▌   | 3389/5155 [8:23:32<4:23:45,  8.96s/it] 66%|██████▌   | 3390/5155 [8:23:41<4:22:39,  8.93s/it]                                                       {'loss': '6.602e-05', 'grad_norm': '0.000556', 'learning_rate': '6.336e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '152.9', 'tokens/total': 55552000, 'tokens/trainable': 17587056, 'epoch': '3.289'}
+ 66%|██████▌   | 3390/5155 [8:23:41<4:22:39,  8.93s/it] 66%|██████▌   | 3391/5155 [8:23:50<4:21:57,  8.91s/it] 66%|██████▌   | 3392/5155 [8:23:58<4:21:18,  8.89s/it] 66%|██████▌   | 3393/5155 [8:24:08<4:24:18,  9.00s/it] 66%|██████▌   | 3394/5155 [8:24:17<4:22:55,  8.96s/it] 66%|██████▌   | 3395/5155 [8:24:25<4:21:54,  8.93s/it] 66%|██████▌   | 3396/5155 [8:24:34<4:21:08,  8.91s/it] 66%|██████▌   | 3397/5155 [8:24:44<4:23:56,  9.01s/it] 66%|██████▌   | 3398/5155 [8:24:52<4:22:24,  8.96s/it] 66%|██████▌   | 3399/5155 [8:25:01<4:21:21,  8.93s/it] 66%|██████▌   | 3400/5155 [8:25:10<4:20:33,  8.91s/it]                                                       {'loss': '1.244e-05', 'grad_norm': '5.361e-05', 'learning_rate': '6.273e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '144.9', 'tokens/total': 55715840, 'tokens/trainable': 17638416, 'epoch': '3.299'}
+ 66%|██████▌   | 3400/5155 [8:25:10<4:20:33,  8.91s/it] 66%|██████▌   | 3401/5155 [8:25:19<4:19:49,  8.89s/it] 66%|██████▌   | 3402/5155 [8:25:28<4:22:56,  9.00s/it] 66%|██████▌   | 3403/5155 [8:25:37<4:21:34,  8.96s/it] 66%|██████▌   | 3404/5155 [8:25:46<4:20:20,  8.92s/it] 66%|██████▌   | 3405/5155 [8:25:55<4:19:42,  8.90s/it] 66%|██████▌   | 3406/5155 [8:26:04<4:22:35,  9.01s/it] 66%|██████▌   | 3407/5155 [8:26:13<4:21:03,  8.96s/it] 66%|██████▌   | 3408/5155 [8:26:22<4:20:01,  8.93s/it] 66%|██████▌   | 3409/5155 [8:26:31<4:19:16,  8.91s/it] 66%|██████▌   | 3410/5155 [8:26:39<4:18:28,  8.89s/it]                                                       {'loss': '2.474e-05', 'grad_norm': '2.086e-05', 'learning_rate': '6.211e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '153.5', 'tokens/total': 55879680, 'tokens/trainable': 17689602, 'epoch': '3.308'}
+ 66%|██████▌   | 3410/5155 [8:26:39<4:18:28,  8.89s/it] 66%|██████▌   | 3411/5155 [8:26:49<4:21:34,  9.00s/it] 66%|██████▌   | 3412/5155 [8:26:58<4:20:13,  8.96s/it] 66%|██████▌   | 3413/5155 [8:27:06<4:19:11,  8.93s/it] 66%|██████▌   | 3414/5155 [8:27:15<4:18:27,  8.91s/it] 66%|██████▌   | 3415/5155 [8:27:25<4:21:15,  9.01s/it] 66%|██████▋   | 3416/5155 [8:27:33<4:19:44,  8.96s/it] 66%|██████▋   | 3417/5155 [8:27:42<4:18:35,  8.93s/it] 66%|██████▋   | 3418/5155 [8:27:51<4:17:51,  8.91s/it] 66%|██████▋   | 3419/5155 [8:28:00<4:17:11,  8.89s/it] 66%|██████▋   | 3420/5155 [8:28:09<4:20:17,  9.00s/it]                                                       {'loss': '9.975e-06', 'grad_norm': '7.073e-05', 'learning_rate': '6.148e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '134.9', 'tokens/total': 56043520, 'tokens/trainable': 17741844, 'epoch': '3.318'}
+ 66%|██████▋   | 3420/5155 [8:28:09<4:20:17,  9.00s/it] 66%|██████▋   | 3421/5155 [8:28:18<4:18:54,  8.96s/it] 66%|██████▋   | 3422/5155 [8:28:27<4:17:51,  8.93s/it] 66%|██████▋   | 3423/5155 [8:28:36<4:17:07,  8.91s/it] 66%|██████▋   | 3424/5155 [8:28:45<4:19:57,  9.01s/it] 66%|██████▋   | 3425/5155 [8:28:54<4:18:23,  8.96s/it] 66%|██████▋   | 3426/5155 [8:29:03<4:17:16,  8.93s/it] 66%|██████▋   | 3427/5155 [8:29:12<4:16:33,  8.91s/it] 66%|██████▋   | 3428/5155 [8:29:20<4:15:44,  8.88s/it] 67%|██████▋   | 3429/5155 [8:29:30<4:20:39,  9.06s/it] 67%|██████▋   | 3430/5155 [8:29:39<4:18:54,  9.01s/it]                                                       {'loss': '2.078e-05', 'grad_norm': '4.996e-05', 'learning_rate': '6.086e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '142.1', 'tokens/total': 56207360, 'tokens/trainable': 17794512, 'epoch': '3.328'}
+ 67%|██████▋   | 3430/5155 [8:29:39<4:18:54,  9.01s/it] 67%|██████▋   | 3431/5155 [8:29:48<4:17:31,  8.96s/it] 67%|██████▋   | 3432/5155 [8:29:56<4:16:22,  8.93s/it] 67%|██████▋   | 3433/5155 [8:30:06<4:19:13,  9.03s/it] 67%|██████▋   | 3434/5155 [8:30:15<4:17:30,  8.98s/it] 67%|██████▋   | 3435/5155 [8:30:23<4:16:17,  8.94s/it] 67%|██████▋   | 3436/5155 [8:30:32<4:15:12,  8.91s/it] 67%|██████▋   | 3437/5155 [8:30:41<4:14:35,  8.89s/it] 67%|██████▋   | 3438/5155 [8:30:50<4:17:47,  9.01s/it] 67%|██████▋   | 3439/5155 [8:30:59<4:16:19,  8.96s/it] 67%|██████▋   | 3440/5155 [8:31:08<4:14:59,  8.92s/it]                                                       {'loss': '9.97e-05', 'grad_norm': '0.008468', 'learning_rate': '6.024e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '142.1', 'tokens/total': 56371200, 'tokens/trainable': 17846384, 'epoch': '3.337'}
+ 67%|██████▋   | 3440/5155 [8:31:08<4:14:59,  8.92s/it] 67%|██████▋   | 3441/5155 [8:31:17<4:14:17,  8.90s/it] 67%|██████▋   | 3442/5155 [8:31:26<4:17:25,  9.02s/it] 67%|██████▋   | 3443/5155 [8:31:35<4:15:51,  8.97s/it] 67%|██████▋   | 3444/5155 [8:31:44<4:14:41,  8.93s/it] 67%|██████▋   | 3445/5155 [8:31:53<4:13:42,  8.90s/it] 67%|██████▋   | 3446/5155 [8:32:02<4:13:10,  8.89s/it] 67%|██████▋   | 3447/5155 [8:32:11<4:16:44,  9.02s/it] 67%|██████▋   | 3448/5155 [8:32:20<4:15:13,  8.97s/it] 67%|██████▋   | 3449/5155 [8:32:29<4:14:08,  8.94s/it] 67%|██████▋   | 3450/5155 [8:32:38<4:13:06,  8.91s/it]                                                       {'loss': '3.433e-05', 'grad_norm': '0.005479', 'learning_rate': '5.962e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '135.9', 'tokens/total': 56535040, 'tokens/trainable': 17898410, 'epoch': '3.347'}
+ 67%|██████▋   | 3450/5155 [8:32:38<4:13:06,  8.91s/it] 67%|██████▋   | 3451/5155 [8:32:47<4:15:53,  9.01s/it] 67%|██████▋   | 3452/5155 [8:32:56<4:14:19,  8.96s/it] 67%|██████▋   | 3453/5155 [8:33:04<4:13:10,  8.93s/it] 67%|██████▋   | 3454/5155 [8:33:13<4:12:25,  8.90s/it] 67%|██████▋   | 3455/5155 [8:33:22<4:11:44,  8.89s/it] 67%|██████▋   | 3456/5155 [8:33:31<4:14:56,  9.00s/it] 67%|██████▋   | 3457/5155 [8:33:40<4:13:34,  8.96s/it] 67%|██████▋   | 3458/5155 [8:33:49<4:12:22,  8.92s/it] 67%|██████▋   | 3459/5155 [8:33:58<4:11:37,  8.90s/it] 67%|██████▋   | 3460/5155 [8:34:07<4:14:31,  9.01s/it]                                                       {'loss': '3.815e-05', 'grad_norm': '0.0001232', 'learning_rate': '5.9e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '141.5', 'tokens/total': 56698880, 'tokens/trainable': 17950310, 'epoch': '3.357'}
+ 67%|██████▋   | 3460/5155 [8:34:07<4:14:31,  9.01s/it] 67%|██████▋   | 3461/5155 [8:34:16<4:13:08,  8.97s/it] 67%|██████▋   | 3462/5155 [8:34:25<4:11:48,  8.92s/it] 67%|██████▋   | 3463/5155 [8:34:34<4:11:04,  8.90s/it] 67%|██████▋   | 3464/5155 [8:34:43<4:10:30,  8.89s/it] 67%|██████▋   | 3465/5155 [8:34:52<4:13:27,  9.00s/it] 67%|██████▋   | 3466/5155 [8:35:01<4:11:46,  8.94s/it] 67%|██████▋   | 3467/5155 [8:35:10<4:10:54,  8.92s/it] 67%|██████▋   | 3468/5155 [8:35:18<4:10:15,  8.90s/it] 67%|██████▋   | 3469/5155 [8:35:28<4:13:20,  9.02s/it] 67%|██████▋   | 3470/5155 [8:35:37<4:11:40,  8.96s/it]                                                       {'loss': '3.673e-05', 'grad_norm': '0.0002994', 'learning_rate': '5.838e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '142.4', 'tokens/total': 56862720, 'tokens/trainable': 18002086, 'epoch': '3.367'}
+ 67%|██████▋   | 3470/5155 [8:35:37<4:11:40,  8.96s/it] 67%|██████▋   | 3471/5155 [8:35:45<4:10:23,  8.92s/it] 67%|██████▋   | 3472/5155 [8:35:54<4:09:34,  8.90s/it] 67%|██████▋   | 3473/5155 [8:36:03<4:12:19,  9.00s/it] 67%|██████▋   | 3474/5155 [8:36:12<4:10:56,  8.96s/it] 67%|██████▋   | 3475/5155 [8:36:21<4:09:41,  8.92s/it] 67%|██████▋   | 3476/5155 [8:36:30<4:09:02,  8.90s/it] 67%|██████▋   | 3477/5155 [8:36:39<4:08:32,  8.89s/it] 67%|██████▋   | 3478/5155 [8:36:48<4:11:36,  9.00s/it] 67%|██████▋   | 3479/5155 [8:36:57<4:10:05,  8.95s/it] 68%|██████▊   | 3480/5155 [8:37:06<4:09:07,  8.92s/it]                                                       {'loss': '1.515e-05', 'grad_norm': '0.000122', 'learning_rate': '5.777e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '143.9', 'tokens/total': 57026560, 'tokens/trainable': 18054090, 'epoch': '3.376'}
+ 68%|██████▊   | 3480/5155 [8:37:06<4:09:07,  8.92s/it] 68%|██████▊   | 3481/5155 [8:37:15<4:08:08,  8.89s/it] 68%|██████▊   | 3482/5155 [8:37:24<4:11:09,  9.01s/it] 68%|██████▊   | 3483/5155 [8:37:33<4:09:35,  8.96s/it] 68%|██████▊   | 3484/5155 [8:37:42<4:08:36,  8.93s/it] 68%|██████▊   | 3485/5155 [8:37:50<4:07:49,  8.90s/it] 68%|██████▊   | 3486/5155 [8:37:59<4:07:06,  8.88s/it] 68%|██████▊   | 3487/5155 [8:38:09<4:10:10,  9.00s/it] 68%|██████▊   | 3488/5155 [8:38:17<4:08:46,  8.95s/it] 68%|██████▊   | 3489/5155 [8:38:26<4:07:41,  8.92s/it] 68%|██████▊   | 3490/5155 [8:38:35<4:06:48,  8.89s/it]                                                       {'loss': '4.161e-05', 'grad_norm': '0.007877', 'learning_rate': '5.715e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '148.6', 'tokens/total': 57190400, 'tokens/trainable': 18106212, 'epoch': '3.386'}
+ 68%|██████▊   | 3490/5155 [8:38:35<4:06:48,  8.89s/it] 68%|██████▊   | 3491/5155 [8:38:44<4:06:21,  8.88s/it] 68%|██████▊   | 3492/5155 [8:38:53<4:09:29,  9.00s/it] 68%|██████▊   | 3493/5155 [8:39:02<4:08:02,  8.95s/it] 68%|██████▊   | 3494/5155 [8:39:11<4:06:48,  8.92s/it] 68%|██████▊   | 3495/5155 [8:39:20<4:05:57,  8.89s/it] 68%|██████▊   | 3496/5155 [8:39:29<4:08:46,  9.00s/it] 68%|██████▊   | 3497/5155 [8:39:38<4:07:26,  8.95s/it] 68%|██████▊   | 3498/5155 [8:39:47<4:06:27,  8.92s/it] 68%|██████▊   | 3499/5155 [8:39:56<4:05:30,  8.90s/it] 68%|██████▊   | 3500/5155 [8:40:05<4:08:40,  9.02s/it]                                                       {'loss': '1.338e-05', 'grad_norm': '0.0004973', 'learning_rate': '5.654e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '146', 'tokens/total': 57354240, 'tokens/trainable': 18157584, 'epoch': '3.396'}
+ 68%|██████▊   | 3500/5155 [8:40:05<4:08:40,  9.02s/it] 68%|██████▊   | 3501/5155 [8:40:14<4:07:10,  8.97s/it] 68%|██████▊   | 3502/5155 [8:40:23<4:06:08,  8.93s/it] 68%|██████▊   | 3503/5155 [8:40:31<4:05:04,  8.90s/it] 68%|██████▊   | 3504/5155 [8:40:40<4:04:22,  8.88s/it] 68%|██████▊   | 3505/5155 [8:40:49<4:07:16,  8.99s/it] 68%|██████▊   | 3506/5155 [8:40:58<4:06:03,  8.95s/it] 68%|██████▊   | 3507/5155 [8:41:07<4:04:54,  8.92s/it] 68%|██████▊   | 3508/5155 [8:41:16<4:04:09,  8.89s/it] 68%|██████▊   | 3509/5155 [8:41:25<4:07:19,  9.02s/it] 68%|██████▊   | 3510/5155 [8:41:34<4:05:49,  8.97s/it]                                                       {'loss': '1.07e-05', 'grad_norm': '1.971e-05', 'learning_rate': '5.593e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '149.9', 'tokens/total': 57518080, 'tokens/trainable': 18209912, 'epoch': '3.405'}
+ 68%|██████▊   | 3510/5155 [8:41:34<4:05:49,  8.97s/it] 68%|██████▊   | 3511/5155 [8:41:43<4:04:37,  8.93s/it] 68%|██████▊   | 3512/5155 [8:41:52<4:03:46,  8.90s/it] 68%|██████▊   | 3513/5155 [8:42:01<4:03:11,  8.89s/it] 68%|██████▊   | 3514/5155 [8:42:10<4:06:04,  9.00s/it] 68%|██████▊   | 3515/5155 [8:42:19<4:04:38,  8.95s/it] 68%|██████▊   | 3516/5155 [8:42:28<4:03:36,  8.92s/it] 68%|██████▊   | 3517/5155 [8:42:36<4:02:56,  8.90s/it] 68%|██████▊   | 3518/5155 [8:42:46<4:05:54,  9.01s/it] 68%|██████▊   | 3519/5155 [8:42:55<4:04:23,  8.96s/it] 68%|██████▊   | 3520/5155 [8:43:03<4:03:10,  8.92s/it]                                                       {'loss': '2.709e-06', 'grad_norm': '1.039e-05', 'learning_rate': '5.533e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '142', 'tokens/total': 57681920, 'tokens/trainable': 18262090, 'epoch': '3.415'}
+ 68%|██████▊   | 3520/5155 [8:43:03<4:03:10,  8.92s/it] 68%|██████▊   | 3521/5155 [8:43:12<4:02:30,  8.90s/it] 68%|██████▊   | 3522/5155 [8:43:21<4:01:57,  8.89s/it] 68%|██████▊   | 3523/5155 [8:43:30<4:04:41,  9.00s/it] 68%|██████▊   | 3524/5155 [8:43:39<4:03:08,  8.94s/it] 68%|██████▊   | 3525/5155 [8:43:48<4:02:08,  8.91s/it] 68%|██████▊   | 3526/5155 [8:43:57<4:01:29,  8.89s/it] 68%|██████▊   | 3527/5155 [8:44:06<4:04:14,  9.00s/it] 68%|██████▊   | 3528/5155 [8:44:15<4:02:48,  8.95s/it] 68%|██████▊   | 3529/5155 [8:44:24<4:01:47,  8.92s/it] 68%|██████▊   | 3530/5155 [8:44:33<4:01:01,  8.90s/it]                                                       {'loss': '1.903e-05', 'grad_norm': '0.0004951', 'learning_rate': '5.472e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '141.9', 'tokens/total': 57845760, 'tokens/trainable': 18313992, 'epoch': '3.425'}
+ 68%|██████▊   | 3530/5155 [8:44:33<4:01:01,  8.90s/it] 68%|██████▊   | 3531/5155 [8:44:41<4:00:22,  8.88s/it] 69%|██████▊   | 3532/5155 [8:44:51<4:03:16,  8.99s/it] 69%|██████▊   | 3533/5155 [8:45:00<4:02:01,  8.95s/it] 69%|██████▊   | 3534/5155 [8:45:08<4:01:00,  8.92s/it] 69%|██████▊   | 3535/5155 [8:45:17<4:00:07,  8.89s/it] 69%|██████▊   | 3536/5155 [8:45:27<4:03:08,  9.01s/it] 69%|██████▊   | 3537/5155 [8:45:35<4:01:39,  8.96s/it] 69%|██████▊   | 3538/5155 [8:45:44<4:00:30,  8.92s/it] 69%|██████▊   | 3539/5155 [8:45:53<3:59:46,  8.90s/it] 69%|██████▊   | 3540/5155 [8:46:02<3:58:55,  8.88s/it]                                                       {'loss': '1.434e-05', 'grad_norm': '3.556e-05', 'learning_rate': '5.412e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '142.4', 'tokens/total': 58009600, 'tokens/trainable': 18365168, 'epoch': '3.434'}
+ 69%|██████▊   | 3540/5155 [8:46:02<3:58:55,  8.88s/it] 69%|██████▊   | 3541/5155 [8:46:11<4:01:58,  9.00s/it] 69%|██████▊   | 3542/5155 [8:46:20<4:00:38,  8.95s/it] 69%|██████▊   | 3543/5155 [8:46:29<3:59:35,  8.92s/it] 69%|██████▊   | 3544/5155 [8:46:38<3:58:36,  8.89s/it] 69%|██████▉   | 3545/5155 [8:46:47<4:01:21,  8.99s/it] 69%|██████▉   | 3546/5155 [8:46:56<4:00:01,  8.95s/it] 69%|██████▉   | 3547/5155 [8:47:05<3:59:07,  8.92s/it] 69%|██████▉   | 3548/5155 [8:47:13<3:58:15,  8.90s/it] 69%|██████▉   | 3549/5155 [8:47:22<3:57:43,  8.88s/it] 69%|██████▉   | 3550/5155 [8:47:32<4:00:44,  9.00s/it]                                                       {'loss': '9.391e-06', 'grad_norm': '0.0002728', 'learning_rate': '5.352e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '150', 'tokens/total': 58173440, 'tokens/trainable': 18417316, 'epoch': '3.444'}
+ 69%|██████▉   | 3550/5155 [8:47:32<4:00:44,  9.00s/it] 69%|██████▉   | 3551/5155 [8:47:40<3:59:25,  8.96s/it] 69%|██████▉   | 3552/5155 [8:47:49<3:58:20,  8.92s/it] 69%|██████▉   | 3553/5155 [8:47:58<3:57:29,  8.90s/it] 69%|██████▉   | 3554/5155 [8:48:07<4:00:24,  9.01s/it] 69%|██████▉   | 3555/5155 [8:48:16<3:59:00,  8.96s/it] 69%|██████▉   | 3556/5155 [8:48:25<3:58:01,  8.93s/it] 69%|██████▉   | 3557/5155 [8:48:34<3:56:59,  8.90s/it] 69%|██████▉   | 3558/5155 [8:48:43<3:56:29,  8.88s/it] 69%|██████▉   | 3559/5155 [8:48:52<3:59:20,  9.00s/it] 69%|██████▉   | 3560/5155 [8:49:01<3:57:58,  8.95s/it]                                                       {'loss': '3.863e-05', 'grad_norm': '0.0004289', 'learning_rate': '5.292e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '157.4', 'tokens/total': 58337280, 'tokens/trainable': 18469156, 'epoch': '3.454'}
+ 69%|██████▉   | 3560/5155 [8:49:01<3:57:58,  8.95s/it] 69%|██████▉   | 3561/5155 [8:49:10<3:56:52,  8.92s/it] 69%|██████▉   | 3562/5155 [8:49:19<3:56:00,  8.89s/it] 69%|██████▉   | 3563/5155 [8:49:27<3:55:35,  8.88s/it] 69%|██████▉   | 3564/5155 [8:49:37<3:58:40,  9.00s/it] 69%|██████▉   | 3565/5155 [8:49:46<3:57:19,  8.96s/it] 69%|██████▉   | 3566/5155 [8:49:54<3:56:01,  8.91s/it] 69%|██████▉   | 3567/5155 [8:50:03<3:55:22,  8.89s/it] 69%|██████▉   | 3568/5155 [8:50:12<3:58:14,  9.01s/it] 69%|██████▉   | 3569/5155 [8:50:21<3:56:53,  8.96s/it] 69%|██████▉   | 3570/5155 [8:50:30<3:55:46,  8.93s/it]                                                       {'loss': '0.0001378', 'grad_norm': '0.007287', 'learning_rate': '5.232e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '155.2', 'tokens/total': 58501120, 'tokens/trainable': 18521592, 'epoch': '3.464'}
+ 69%|██████▉   | 3570/5155 [8:50:30<3:55:46,  8.93s/it] 69%|██████▉   | 3571/5155 [8:50:39<3:54:56,  8.90s/it] 69%|██████▉   | 3572/5155 [8:50:48<3:54:23,  8.88s/it] 69%|██████▉   | 3573/5155 [8:50:57<3:57:15,  9.00s/it] 69%|██████▉   | 3574/5155 [8:51:06<3:55:59,  8.96s/it] 69%|██████▉   | 3575/5155 [8:51:15<3:55:05,  8.93s/it] 69%|██████▉   | 3576/5155 [8:51:24<3:54:18,  8.90s/it] 69%|██████▉   | 3577/5155 [8:51:33<3:56:55,  9.01s/it] 69%|██████▉   | 3578/5155 [8:51:42<3:55:20,  8.95s/it] 69%|██████▉   | 3579/5155 [8:51:51<3:54:20,  8.92s/it] 69%|██████▉   | 3580/5155 [8:51:59<3:53:38,  8.90s/it]                                                       {'loss': '0.0003289', 'grad_norm': '0.02072', 'learning_rate': '5.173e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '161.4', 'tokens/total': 58664960, 'tokens/trainable': 18573716, 'epoch': '3.473'}
+ 69%|██████▉   | 3580/5155 [8:51:59<3:53:38,  8.90s/it] 69%|██████▉   | 3581/5155 [8:52:09<3:56:23,  9.01s/it] 69%|██████▉   | 3582/5155 [8:52:18<3:54:56,  8.96s/it] 70%|██████▉   | 3583/5155 [8:52:26<3:53:57,  8.93s/it] 70%|██████▉   | 3584/5155 [8:52:35<3:53:10,  8.91s/it] 70%|██████▉   | 3585/5155 [8:52:44<3:52:27,  8.88s/it] 70%|██████▉   | 3586/5155 [8:52:53<3:55:04,  8.99s/it] 70%|██████▉   | 3587/5155 [8:53:02<3:53:50,  8.95s/it] 70%|██████▉   | 3588/5155 [8:53:11<3:52:55,  8.92s/it] 70%|██████▉   | 3589/5155 [8:53:20<3:52:19,  8.90s/it] 70%|██████▉   | 3590/5155 [8:53:29<3:54:48,  9.00s/it]                                                       {'loss': '0.0007538', 'grad_norm': '0.007039', 'learning_rate': '5.114e-05', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '149.5', 'tokens/total': 58828800, 'tokens/trainable': 18626456, 'epoch': '3.483'}
+ 70%|██████▉   | 3590/5155 [8:53:29<3:54:48,  9.00s/it] 70%|██████▉   | 3591/5155 [8:53:38<3:53:29,  8.96s/it] 70%|██████▉   | 3592/5155 [8:53:47<3:52:32,  8.93s/it] 70%|██████▉   | 3593/5155 [8:53:56<3:51:45,  8.90s/it] 70%|██████▉   | 3594/5155 [8:54:05<3:51:02,  8.88s/it] 70%|██████▉   | 3595/5155 [8:54:14<3:53:54,  9.00s/it] 70%|██████▉   | 3596/5155 [8:54:23<3:52:37,  8.95s/it] 70%|██████▉   | 3597/5155 [8:54:32<3:51:51,  8.93s/it] 70%|██████▉   | 3598/5155 [8:54:40<3:51:10,  8.91s/it] 70%|██████▉   | 3599/5155 [8:54:50<3:53:43,  9.01s/it] 70%|██████▉   | 3600/5155 [8:54:59<3:52:23,  8.97s/it]                                                       {'loss': '0.0002355', 'grad_norm': '0.001045', 'learning_rate': '5.055e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '139.9', 'tokens/total': 58992640, 'tokens/trainable': 18678168, 'epoch': '3.493'}
+ 70%|██████▉   | 3600/5155 [8:54:59<3:52:23,  8.97s/it] 70%|██████▉   | 3601/5155 [8:55:07<3:51:23,  8.93s/it] 70%|██████▉   | 3602/5155 [8:55:16<3:50:32,  8.91s/it] 70%|██████▉   | 3603/5155 [8:55:25<3:49:43,  8.88s/it] 70%|██████▉   | 3604/5155 [8:55:34<3:52:30,  8.99s/it] 70%|██████▉   | 3605/5155 [8:55:43<3:51:12,  8.95s/it] 70%|██████▉   | 3606/5155 [8:55:52<3:50:21,  8.92s/it] 70%|██████▉   | 3607/5155 [8:56:01<3:49:37,  8.90s/it] 70%|██████▉   | 3608/5155 [8:56:10<3:48:45,  8.87s/it] 70%|███████   | 3609/5155 [8:56:19<3:51:40,  8.99s/it] 70%|███████   | 3610/5155 [8:56:28<3:50:22,  8.95s/it]                                                       {'loss': '0.0001119', 'grad_norm': '0.003468', 'learning_rate': '4.996e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '148.8', 'tokens/total': 59156480, 'tokens/trainable': 18730292, 'epoch': '3.502'}
+ 70%|███████   | 3610/5155 [8:56:28<3:50:22,  8.95s/it] 70%|███████   | 3611/5155 [8:56:37<3:49:27,  8.92s/it] 70%|███████   | 3612/5155 [8:56:45<3:48:35,  8.89s/it][2026-02-26 08:17:32,187] [INFO] [axolotl.core.trainers.base.evaluate:400] [PID:2758243] Running evaluation step...
+[2026-02-26 08:17:33,625] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.7058994770050049
+[2026-02-26 08:17:34,305] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.6794748306274414
+[2026-02-26 08:17:35,006] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.7012009620666504
+[2026-02-26 08:17:35,703] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.6960992813110352
+[2026-02-26 08:17:35,703] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:2758243] gather_len_batches: [17]
+
+  0%|          | 0/17 [00:00<?, ?it/s][A
+ 12%|█▏        | 2/17 [00:00<00:04,  3.18it/s][A
+ 18%|█▊        | 3/17 [00:01<00:06,  2.23it/s][A
+ 24%|██▎       | 4/17 [00:01<00:06,  1.93it/s][A
+ 29%|██▉       | 5/17 [00:02<00:07,  1.55it/s][A
+ 35%|███▌      | 6/17 [00:03<00:07,  1.56it/s][A
+ 41%|████      | 7/17 [00:04<00:06,  1.57it/s][A
+ 47%|████▋     | 8/17 [00:04<00:05,  1.57it/s][A
+ 53%|█████▎    | 9/17 [00:05<00:05,  1.50it/s][A
+ 59%|█████▉    | 10/17 [00:06<00:04,  1.53it/s][A
+ 65%|██████▍   | 11/17 [00:06<00:03,  1.54it/s][A
+ 71%|███████   | 12/17 [00:07<00:03,  1.55it/s][A
+ 76%|███████▋  | 13/17 [00:08<00:03,  1.32it/s][A
+ 82%|████████▏ | 14/17 [00:08<00:02,  1.40it/s][A
+ 88%|████████▊ | 15/17 [00:09<00:01,  1.45it/s][A
+ 94%|█████████▍| 16/17 [00:10<00:00,  1.48it/s][A
+100%|██████████| 17/17 [00:10<00:00,  1.54it/s][A                                                       
+                                               [A{'eval_loss': '0.0001782', 'eval_runtime': '12.45', 'eval_samples_per_second': '16.06', 'eval_steps_per_second': '8.031', 'eval_ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'epoch': '3.504', 'tokens/train_per_sec_per_gpu': '149.4'}
+ 70%|███████   | 3612/5155 [8:57:01<3:48:35,  8.89s/it]
+100%|██████████| 17/17 [00:10<00:00,  1.54it/s][A
+                                               [A 70%|███████   | 3613/5155 [8:57:10<5:52:06, 13.70s/it] 70%|███████   | 3614/5155 [8:57:19<5:14:09, 12.23s/it] 70%|███████   | 3615/5155 [8:57:28<4:47:48, 11.21s/it] 70%|███████   | 3616/5155 [8:57:37<4:29:19, 10.50s/it] 70%|███████   | 3617/5155 [8:57:46<4:20:08, 10.15s/it] 70%|███████   | 3618/5155 [8:57:55<4:09:39,  9.75s/it] 70%|███████   | 3619/5155 [8:58:04<4:02:49,  9.49s/it] 70%|███████   | 3620/5155 [8:58:13<3:57:47,  9.29s/it]                                                       {'loss': '8.826e-05', 'grad_norm': '0.0009657', 'learning_rate': '4.938e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '137.3', 'tokens/total': 59320320, 'tokens/trainable': 18782052, 'epoch': '3.512'}
+ 70%|███████   | 3620/5155 [8:58:13<3:57:47,  9.29s/it] 70%|███████   | 3621/5155 [8:58:22<3:58:03,  9.31s/it] 70%|███████   | 3622/5155 [8:58:31<3:54:05,  9.16s/it] 70%|███████   | 3623/5155 [8:58:40<3:51:27,  9.06s/it] 70%|███████   | 3624/5155 [8:58:49<3:49:40,  9.00s/it] 70%|███████   | 3625/5155 [8:58:57<3:48:27,  8.96s/it] 70%|███████   | 3626/5155 [8:59:07<3:50:45,  9.06s/it] 70%|███████   | 3627/5155 [8:59:16<3:48:45,  8.98s/it] 70%|███████   | 3628/5155 [8:59:24<3:47:41,  8.95s/it] 70%|███████   | 3629/5155 [8:59:33<3:46:48,  8.92s/it] 70%|███████   | 3630/5155 [8:59:42<3:49:15,  9.02s/it]                                                       {'loss': '0.0001557', 'grad_norm': '0.0001865', 'learning_rate': '4.879e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '134.9', 'tokens/total': 59484160, 'tokens/trainable': 18833744, 'epoch': '3.522'}
+ 70%|███████   | 3630/5155 [8:59:42<3:49:15,  9.02s/it] 70%|███████   | 3631/5155 [8:59:51<3:47:38,  8.96s/it] 70%|███████   | 3632/5155 [9:00:00<3:46:34,  8.93s/it] 70%|███████   | 3633/5155 [9:00:09<3:45:55,  8.91s/it] 70%|███████   | 3634/5155 [9:00:18<3:45:22,  8.89s/it] 71%|███████   | 3635/5155 [9:00:27<3:48:08,  9.01s/it] 71%|███████   | 3636/5155 [9:00:36<3:46:25,  8.94s/it] 71%|███████   | 3637/5155 [9:00:45<3:45:36,  8.92s/it] 71%|███████   | 3638/5155 [9:00:54<3:44:58,  8.90s/it] 71%|███████   | 3639/5155 [9:01:03<3:47:39,  9.01s/it] 71%|███████   | 3640/5155 [9:01:12<3:46:12,  8.96s/it]                                                       {'loss': '4.432e-05', 'grad_norm': '0.01398', 'learning_rate': '4.821e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '153.8', 'tokens/total': 59648000, 'tokens/trainable': 18886264, 'epoch': '3.531'}
+ 71%|███████   | 3640/5155 [9:01:12<3:46:12,  8.96s/it] 71%|███████   | 3641/5155 [9:01:21<3:45:04,  8.92s/it] 71%|███████   | 3642/5155 [9:01:29<3:44:18,  8.89s/it] 71%|███████   | 3643/5155 [9:01:38<3:43:46,  8.88s/it] 71%|███████   | 3644/5155 [9:01:48<3:46:36,  9.00s/it] 71%|███████   | 3645/5155 [9:01:56<3:45:20,  8.95s/it] 71%|███████   | 3646/5155 [9:02:05<3:44:23,  8.92s/it] 71%|███████   | 3647/5155 [9:02:14<3:43:41,  8.90s/it] 71%|███████   | 3648/5155 [9:02:23<3:46:18,  9.01s/it] 71%|███████   | 3649/5155 [9:02:32<3:44:57,  8.96s/it] 71%|███████   | 3650/5155 [9:02:41<3:44:00,  8.93s/it]                                                       {'loss': '0.0001152', 'grad_norm': '0.000121', 'learning_rate': '4.763e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '135', 'tokens/total': 59811840, 'tokens/trainable': 18938164, 'epoch': '3.541'}
+ 71%|███████   | 3650/5155 [9:02:41<3:44:00,  8.93s/it] 71%|███████   | 3651/5155 [9:02:50<3:43:16,  8.91s/it] 71%|███████   | 3652/5155 [9:02:59<3:42:33,  8.88s/it] 71%|███████   | 3653/5155 [9:03:08<3:45:03,  8.99s/it] 71%|███████   | 3654/5155 [9:03:17<3:43:53,  8.95s/it] 71%|███████   | 3655/5155 [9:03:26<3:42:59,  8.92s/it] 71%|███████   | 3656/5155 [9:03:35<3:42:13,  8.89s/it] 71%|███████   | 3657/5155 [9:03:44<3:44:51,  9.01s/it] 71%|███████   | 3658/5155 [9:03:53<3:43:30,  8.96s/it] 71%|███████   | 3659/5155 [9:04:01<3:42:36,  8.93s/it] 71%|███████   | 3660/5155 [9:04:10<3:41:58,  8.91s/it]                                                       {'loss': '0.0001947', 'grad_norm': '0.0007786', 'learning_rate': '4.706e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '140.5', 'tokens/total': 59975680, 'tokens/trainable': 18989852, 'epoch': '3.551'}
+ 71%|███████   | 3660/5155 [9:04:10<3:41:58,  8.91s/it] 71%|███████   | 3661/5155 [9:04:19<3:41:26,  8.89s/it] 71%|███████   | 3662/5155 [9:04:29<3:44:13,  9.01s/it] 71%|███████   | 3663/5155 [9:04:37<3:42:59,  8.97s/it] 71%|███████   | 3664/5155 [9:04:46<3:41:48,  8.93s/it] 71%|███████   | 3665/5155 [9:04:55<3:41:09,  8.91s/it] 71%|███████   | 3666/5155 [9:05:04<3:43:45,  9.02s/it] 71%|███████   | 3667/5155 [9:05:13<3:42:17,  8.96s/it] 71%|███████   | 3668/5155 [9:05:22<3:41:11,  8.92s/it] 71%|███████   | 3669/5155 [9:05:31<3:40:28,  8.90s/it] 71%|███████   | 3670/5155 [9:05:40<3:40:03,  8.89s/it]                                                       {'loss': '9.758e-05', 'grad_norm': '0.02533', 'learning_rate': '4.649e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '137.9', 'tokens/total': 60139520, 'tokens/trainable': 19041522, 'epoch': '3.56'}
+ 71%|███████   | 3670/5155 [9:05:40<3:40:03,  8.89s/it] 71%|███████   | 3671/5155 [9:05:49<3:42:51,  9.01s/it] 71%|███████   | 3672/5155 [9:05:58<3:41:22,  8.96s/it] 71%|███████▏  | 3673/5155 [9:06:07<3:40:14,  8.92s/it] 71%|███████▏  | 3674/5155 [9:06:16<3:39:54,  8.91s/it] 71%|███████▏  | 3675/5155 [9:06:25<3:42:43,  9.03s/it] 71%|███████▏  | 3676/5155 [9:06:34<3:41:37,  8.99s/it] 71%|███████▏  | 3677/5155 [9:06:43<3:40:43,  8.96s/it] 71%|███████▏  | 3678/5155 [9:06:51<3:39:32,  8.92s/it] 71%|███████▏  | 3679/5155 [9:07:00<3:39:07,  8.91s/it] 71%|███████▏  | 3680/5155 [9:07:10<3:42:05,  9.03s/it]                                                       {'loss': '3.944e-05', 'grad_norm': '0.00149', 'learning_rate': '4.592e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '148.6', 'tokens/total': 60303360, 'tokens/trainable': 19093162, 'epoch': '3.57'}
+ 71%|███████▏  | 3680/5155 [9:07:10<3:42:05,  9.03s/it] 71%|███████▏  | 3681/5155 [9:07:19<3:40:55,  8.99s/it] 71%|███████▏  | 3682/5155 [9:07:27<3:40:06,  8.97s/it] 71%|███████▏  | 3683/5155 [9:07:36<3:38:47,  8.92s/it] 71%|███████▏  | 3684/5155 [9:07:46<3:41:37,  9.04s/it] 71%|███████▏  | 3685/5155 [9:07:55<3:40:21,  8.99s/it] 72%|███████▏  | 3686/5155 [9:08:03<3:39:26,  8.96s/it] 72%|███████▏  | 3687/5155 [9:08:12<3:38:50,  8.94s/it] 72%|███████▏  | 3688/5155 [9:08:21<3:38:08,  8.92s/it] 72%|███████▏  | 3689/5155 [9:08:30<3:40:35,  9.03s/it] 72%|███████▏  | 3690/5155 [9:08:39<3:39:30,  8.99s/it]                                                       {'loss': '1.039e-05', 'grad_norm': '0.0007833', 'learning_rate': '4.535e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '145.4', 'tokens/total': 60467200, 'tokens/trainable': 19145046, 'epoch': '3.58'}
+ 72%|███████▏  | 3690/5155 [9:08:39<3:39:30,  8.99s/it] 72%|███████▏  | 3691/5155 [9:08:48<3:38:40,  8.96s/it] 72%|███████▏  | 3692/5155 [9:08:57<3:38:03,  8.94s/it] 72%|███████▏  | 3693/5155 [9:09:06<3:40:18,  9.04s/it] 72%|███████▏  | 3694/5155 [9:09:15<3:38:54,  8.99s/it] 72%|███████▏  | 3695/5155 [9:09:24<3:37:59,  8.96s/it] 72%|███████▏  | 3696/5155 [9:09:33<3:37:23,  8.94s/it] 72%|███████▏  | 3697/5155 [9:09:42<3:36:53,  8.93s/it] 72%|███████▏  | 3698/5155 [9:09:51<3:39:46,  9.05s/it] 72%|███████▏  | 3699/5155 [9:10:00<3:38:23,  9.00s/it] 72%|███████▏  | 3700/5155 [9:10:09<3:37:25,  8.97s/it]                                                       {'loss': '3.012e-05', 'grad_norm': '0.0001279', 'learning_rate': '4.478e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '154.2', 'tokens/total': 60631040, 'tokens/trainable': 19196986, 'epoch': '3.59'}
+ 72%|███████▏  | 3700/5155 [9:10:09<3:37:25,  8.97s/it] 72%|███████▏  | 3701/5155 [9:10:18<3:36:29,  8.93s/it] 72%|███████▏  | 3702/5155 [9:10:27<3:39:11,  9.05s/it] 72%|███████▏  | 3703/5155 [9:10:36<3:37:56,  9.01s/it] 72%|███████▏  | 3704/5155 [9:10:45<3:36:55,  8.97s/it] 72%|███████▏  | 3705/5155 [9:10:54<3:36:16,  8.95s/it] 72%|███████▏  | 3706/5155 [9:11:03<3:38:37,  9.05s/it] 72%|███████▏  | 3707/5155 [9:11:12<3:37:19,  9.01s/it] 72%|███████▏  | 3708/5155 [9:11:21<3:36:27,  8.98s/it] 72%|███████▏  | 3709/5155 [9:11:30<3:35:44,  8.95s/it] 72%|███████▏  | 3710/5155 [9:11:39<3:34:46,  8.92s/it]                                                       {'loss': '8.842e-06', 'grad_norm': '0.0004471', 'learning_rate': '4.422e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '141.4', 'tokens/total': 60794880, 'tokens/trainable': 19248428, 'epoch': '3.599'}
+ 72%|███████▏  | 3710/5155 [9:11:39<3:34:46,  8.92s/it] 72%|███████▏  | 3711/5155 [9:11:48<3:37:33,  9.04s/it] 72%|███████▏  | 3712/5155 [9:11:57<3:36:20,  9.00s/it] 72%|███████▏  | 3713/5155 [9:12:06<3:35:26,  8.96s/it] 72%|███████▏  | 3714/5155 [9:12:15<3:34:36,  8.94s/it] 72%|███████▏  | 3715/5155 [9:12:24<3:37:09,  9.05s/it] 72%|███████▏  | 3716/5155 [9:12:33<3:35:55,  9.00s/it] 72%|███████▏  | 3717/5155 [9:12:42<3:35:00,  8.97s/it] 72%|███████▏  | 3718/5155 [9:12:51<3:35:38,  9.00s/it] 72%|███████▏  | 3719/5155 [9:13:00<3:34:14,  8.95s/it] 72%|███████▏  | 3720/5155 [9:13:09<3:36:44,  9.06s/it]                                                       {'loss': '4.249e-05', 'grad_norm': '0.0009804', 'learning_rate': '4.366e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '129.5', 'tokens/total': 60958720, 'tokens/trainable': 19300280, 'epoch': '3.609'}
+ 72%|███████▏  | 3720/5155 [9:13:09<3:36:44,  9.06s/it] 72%|███████▏  | 3721/5155 [9:13:18<3:35:27,  9.02s/it] 72%|███████▏  | 3722/5155 [9:13:27<3:34:24,  8.98s/it] 72%|███████▏  | 3723/5155 [9:13:36<3:33:29,  8.94s/it] 72%|███████▏  | 3724/5155 [9:13:45<3:35:52,  9.05s/it] 72%|███████▏  | 3725/5155 [9:13:54<3:34:49,  9.01s/it] 72%|███████▏  | 3726/5155 [9:14:03<3:33:57,  8.98s/it] 72%|███████▏  | 3727/5155 [9:14:12<3:33:13,  8.96s/it] 72%|███████▏  | 3728/5155 [9:14:21<3:32:20,  8.93s/it] 72%|███████▏  | 3729/5155 [9:14:30<3:35:06,  9.05s/it] 72%|███████▏  | 3730/5155 [9:14:39<3:33:52,  9.01s/it]                                                       {'loss': '5.588e-05', 'grad_norm': '0.000243', 'learning_rate': '4.31e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '143.1', 'tokens/total': 61122560, 'tokens/trainable': 19352472, 'epoch': '3.619'}
+ 72%|███████▏  | 3730/5155 [9:14:39<3:33:52,  9.01s/it] 72%|███████▏  | 3731/5155 [9:14:48<3:33:04,  8.98s/it] 72%|███████▏  | 3732/5155 [9:14:57<3:31:59,  8.94s/it] 72%|███████▏  | 3733/5155 [9:15:06<3:34:47,  9.06s/it] 72%|███████▏  | 3734/5155 [9:15:15<3:33:36,  9.02s/it] 72%|███████▏  | 3735/5155 [9:15:24<3:32:42,  8.99s/it] 72%|███████▏  | 3736/5155 [9:15:33<3:31:35,  8.95s/it] 72%|███████▏  | 3737/5155 [9:15:42<3:31:03,  8.93s/it] 73%|███████▎  | 3738/5155 [9:15:51<3:33:41,  9.05s/it] 73%|███████▎  | 3739/5155 [9:16:00<3:32:27,  9.00s/it] 73%|███████▎  | 3740/5155 [9:16:09<3:31:23,  8.96s/it]                                                       {'loss': '2.863e-05', 'grad_norm': '0.0109', 'learning_rate': '4.254e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '143', 'tokens/total': 61286400, 'tokens/trainable': 19404152, 'epoch': '3.628'}
+ 73%|███████▎  | 3740/5155 [9:16:09<3:31:23,  8.96s/it] 73%|███████▎  | 3741/5155 [9:16:18<3:30:24,  8.93s/it] 73%|███████▎  | 3742/5155 [9:16:27<3:33:07,  9.05s/it] 73%|███████▎  | 3743/5155 [9:16:36<3:31:54,  9.00s/it] 73%|███████▎  | 3744/5155 [9:16:45<3:30:59,  8.97s/it] 73%|███████▎  | 3745/5155 [9:16:53<3:29:52,  8.93s/it] 73%|███████▎  | 3746/5155 [9:17:02<3:29:33,  8.92s/it] 73%|███████▎  | 3747/5155 [9:17:12<3:32:31,  9.06s/it] 73%|███████▎  | 3748/5155 [9:17:21<3:31:31,  9.02s/it] 73%|███████▎  | 3749/5155 [9:17:30<3:30:28,  8.98s/it] 73%|███████▎  | 3750/5155 [9:17:38<3:29:48,  8.96s/it]                                                       {'loss': '1.816e-05', 'grad_norm': '0.003135', 'learning_rate': '4.199e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '152.5', 'tokens/total': 61450240, 'tokens/trainable': 19455468, 'epoch': '3.638'}
+ 73%|███████▎  | 3750/5155 [9:17:38<3:29:48,  8.96s/it] 73%|███████▎  | 3751/5155 [9:17:48<3:32:30,  9.08s/it] 73%|███████▎  | 3752/5155 [9:17:57<3:31:16,  9.04s/it] 73%|███████▎  | 3753/5155 [9:18:06<3:29:57,  8.99s/it] 73%|███████▎  | 3754/5155 [9:18:14<3:28:48,  8.94s/it] 73%|███████▎  | 3755/5155 [9:18:23<3:28:34,  8.94s/it] 73%|███████▎  | 3756/5155 [9:18:33<3:31:28,  9.07s/it] 73%|███████▎  | 3757/5155 [9:18:42<3:30:24,  9.03s/it] 73%|███████▎  | 3758/5155 [9:18:51<3:29:33,  9.00s/it] 73%|███████▎  | 3759/5155 [9:18:59<3:28:05,  8.94s/it] 73%|███████▎  | 3760/5155 [9:19:09<3:30:50,  9.07s/it]                                                       {'loss': '1.376e-05', 'grad_norm': '0.0003151', 'learning_rate': '4.144e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '131.1', 'tokens/total': 61614080, 'tokens/trainable': 19506824, 'epoch': '3.648'}
+ 73%|███████▎  | 3760/5155 [9:19:09<3:30:50,  9.07s/it] 73%|███████▎  | 3761/5155 [9:19:18<3:29:44,  9.03s/it] 73%|███████▎  | 3762/5155 [9:19:27<3:28:57,  9.00s/it] 73%|███████▎  | 3763/5155 [9:19:36<3:28:18,  8.98s/it] 73%|███████▎  | 3764/5155 [9:19:45<3:27:36,  8.96s/it] 73%|███████▎  | 3765/5155 [9:19:54<3:30:11,  9.07s/it] 73%|███████▎  | 3766/5155 [9:20:03<3:28:46,  9.02s/it] 73%|███████▎  | 3767/5155 [9:20:12<3:27:48,  8.98s/it] 73%|███████▎  | 3768/5155 [9:20:21<3:26:47,  8.95s/it] 73%|███████▎  | 3769/5155 [9:20:30<3:29:04,  9.05s/it] 73%|███████▎  | 3770/5155 [9:20:39<3:27:54,  9.01s/it]                                                       {'loss': '8.082e-06', 'grad_norm': '0.0001264', 'learning_rate': '4.089e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '157.4', 'tokens/total': 61777920, 'tokens/trainable': 19558428, 'epoch': '3.657'}
+ 73%|███████▎  | 3770/5155 [9:20:39<3:27:54,  9.01s/it] 73%|███████▎  | 3771/5155 [9:20:48<3:27:06,  8.98s/it] 73%|███████▎  | 3772/5155 [9:20:57<3:26:18,  8.95s/it] 73%|███████▎  | 3773/5155 [9:21:05<3:25:36,  8.93s/it] 73%|███████▎  | 3774/5155 [9:21:15<3:28:22,  9.05s/it] 73%|███████▎  | 3775/5155 [9:21:24<3:27:24,  9.02s/it] 73%|███████▎  | 3776/5155 [9:21:33<3:26:35,  8.99s/it] 73%|███████▎  | 3777/5155 [9:21:41<3:25:35,  8.95s/it] 73%|███████▎  | 3778/5155 [9:21:51<3:28:14,  9.07s/it] 73%|███████▎  | 3779/5155 [9:22:00<3:26:55,  9.02s/it] 73%|███████▎  | 3780/5155 [9:22:09<3:26:00,  8.99s/it]                                                       {'loss': '8.599e-06', 'grad_norm': '5.454e-05', 'learning_rate': '4.035e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '149.8', 'tokens/total': 61941760, 'tokens/trainable': 19610278, 'epoch': '3.667'}
+ 73%|███████▎  | 3780/5155 [9:22:09<3:26:00,  8.99s/it] 73%|███████▎  | 3781/5155 [9:22:17<3:24:53,  8.95s/it] 73%|███████▎  | 3782/5155 [9:22:26<3:24:27,  8.93s/it] 73%|███████▎  | 3783/5155 [9:22:36<3:27:10,  9.06s/it] 73%|███████▎  | 3784/5155 [9:22:45<3:26:04,  9.02s/it] 73%|███████▎  | 3785/5155 [9:22:54<3:25:13,  8.99s/it] 73%|███████▎  | 3786/5155 [9:23:02<3:24:02,  8.94s/it] 73%|███████▎  | 3787/5155 [9:23:12<3:26:26,  9.05s/it] 73%|███████▎  | 3788/5155 [9:23:21<3:24:55,  8.99s/it] 74%|███████▎  | 3789/5155 [9:23:29<3:23:47,  8.95s/it] 74%|███████▎  | 3790/5155 [9:23:38<3:22:58,  8.92s/it]                                                       {'loss': '9.497e-05', 'grad_norm': '0.0006128', 'learning_rate': '3.981e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '141.6', 'tokens/total': 62105600, 'tokens/trainable': 19662032, 'epoch': '3.677'}
+ 74%|███████▎  | 3790/5155 [9:23:38<3:22:58,  8.92s/it] 74%|███████▎  | 3791/5155 [9:23:48<3:25:09,  9.02s/it] 74%|███████▎  | 3792/5155 [9:23:56<3:24:00,  8.98s/it] 74%|███████▎  | 3793/5155 [9:24:05<3:23:03,  8.95s/it] 74%|███████▎  | 3794/5155 [9:24:14<3:22:21,  8.92s/it] 74%|███████▎  | 3795/5155 [9:24:23<3:21:35,  8.89s/it] 74%|███████▎  | 3796/5155 [9:24:32<3:24:07,  9.01s/it] 74%|███████▎  | 3797/5155 [9:24:41<3:22:59,  8.97s/it] 74%|███████▎  | 3798/5155 [9:24:50<3:22:14,  8.94s/it] 74%|███████▎  | 3799/5155 [9:24:59<3:21:32,  8.92s/it] 74%|███████▎  | 3800/5155 [9:25:08<3:23:51,  9.03s/it]                                                       {'loss': '7.704e-05', 'grad_norm': '0.0001589', 'learning_rate': '3.927e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '142.9', 'tokens/total': 62269440, 'tokens/trainable': 19713576, 'epoch': '3.687'}
+ 74%|███████▎  | 3800/5155 [9:25:08<3:23:51,  9.03s/it] 74%|███████▎  | 3801/5155 [9:25:17<3:22:37,  8.98s/it] 74%|███████▍  | 3802/5155 [9:25:26<3:21:42,  8.95s/it] 74%|███████▍  | 3803/5155 [9:25:35<3:21:00,  8.92s/it] 74%|███████▍  | 3804/5155 [9:25:44<3:20:18,  8.90s/it] 74%|███████▍  | 3805/5155 [9:25:53<3:22:41,  9.01s/it] 74%|███████▍  | 3806/5155 [9:26:02<3:21:26,  8.96s/it] 74%|███████▍  | 3807/5155 [9:26:11<3:20:34,  8.93s/it] 74%|███████▍  | 3808/5155 [9:26:19<3:19:42,  8.90s/it] 74%|███████▍  | 3809/5155 [9:26:29<3:22:09,  9.01s/it] 74%|███████▍  | 3810/5155 [9:26:38<3:20:55,  8.96s/it]                                                       {'loss': '9.209e-06', 'grad_norm': '0.001005', 'learning_rate': '3.873e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '145', 'tokens/total': 62433280, 'tokens/trainable': 19766120, 'epoch': '3.696'}
+ 74%|███████▍  | 3810/5155 [9:26:38<3:20:55,  8.96s/it] 74%|███████▍  | 3811/5155 [9:26:46<3:20:04,  8.93s/it] 74%|███████▍  | 3812/5155 [9:26:55<3:19:13,  8.90s/it] 74%|███████▍  | 3813/5155 [9:27:04<3:18:45,  8.89s/it] 74%|███████▍  | 3814/5155 [9:27:13<3:21:18,  9.01s/it] 74%|███████▍  | 3815/5155 [9:27:22<3:20:05,  8.96s/it] 74%|███████▍  | 3816/5155 [9:27:31<3:19:01,  8.92s/it] 74%|███████▍  | 3817/5155 [9:27:40<3:18:21,  8.90s/it] 74%|███████▍  | 3818/5155 [9:27:49<3:20:42,  9.01s/it] 74%|███████▍  | 3819/5155 [9:27:58<3:19:28,  8.96s/it] 74%|███████▍  | 3820/5155 [9:28:07<3:18:28,  8.92s/it]                                                       {'loss': '2.174e-05', 'grad_norm': '0.00109', 'learning_rate': '3.82e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '163.4', 'tokens/total': 62597120, 'tokens/trainable': 19818266, 'epoch': '3.706'}
+ 74%|███████▍  | 3820/5155 [9:28:07<3:18:28,  8.92s/it] 74%|███████▍  | 3821/5155 [9:28:16<3:17:54,  8.90s/it] 74%|███████▍  | 3822/5155 [9:28:25<3:17:27,  8.89s/it] 74%|███████▍  | 3823/5155 [9:28:34<3:19:58,  9.01s/it] 74%|███████▍  | 3824/5155 [9:28:43<3:18:38,  8.95s/it] 74%|███████▍  | 3825/5155 [9:28:51<3:17:50,  8.93s/it] 74%|███████▍  | 3826/5155 [9:29:00<3:17:10,  8.90s/it] 74%|███████▍  | 3827/5155 [9:29:10<3:19:30,  9.01s/it] 74%|███████▍  | 3828/5155 [9:29:18<3:18:03,  8.96s/it] 74%|███████▍  | 3829/5155 [9:29:27<3:17:11,  8.92s/it] 74%|███████▍  | 3830/5155 [9:29:36<3:16:34,  8.90s/it]                                                       {'loss': '0.0001318', 'grad_norm': '0.01017', 'learning_rate': '3.767e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '157.4', 'tokens/total': 62760960, 'tokens/trainable': 19870036, 'epoch': '3.716'}
+ 74%|███████▍  | 3830/5155 [9:29:36<3:16:34,  8.90s/it] 74%|███████▍  | 3831/5155 [9:29:45<3:16:09,  8.89s/it] 74%|███████▍  | 3832/5155 [9:29:54<3:18:23,  9.00s/it] 74%|███████▍  | 3833/5155 [9:30:03<3:17:13,  8.95s/it] 74%|███████▍  | 3834/5155 [9:30:12<3:16:24,  8.92s/it] 74%|███████▍  | 3835/5155 [9:30:21<3:15:45,  8.90s/it] 74%|███████▍  | 3836/5155 [9:30:30<3:18:01,  9.01s/it] 74%|███████▍  | 3837/5155 [9:30:39<3:16:48,  8.96s/it] 74%|███████▍  | 3838/5155 [9:30:48<3:15:54,  8.93s/it] 74%|███████▍  | 3839/5155 [9:30:57<3:15:15,  8.90s/it] 74%|███████▍  | 3840/5155 [9:31:05<3:14:43,  8.88s/it]                                                       {'loss': '0.0001052', 'grad_norm': '0.0007078', 'learning_rate': '3.714e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '143.9', 'tokens/total': 62924800, 'tokens/trainable': 19921268, 'epoch': '3.725'}
+ 74%|███████▍  | 3840/5155 [9:31:05<3:14:43,  8.88s/it] 75%|███████▍  | 3841/5155 [9:31:15<3:17:03,  9.00s/it] 75%|███████▍  | 3842/5155 [9:31:24<3:15:52,  8.95s/it] 75%|███████▍  | 3843/5155 [9:31:32<3:14:55,  8.91s/it] 75%|███████▍  | 3844/5155 [9:31:41<3:14:19,  8.89s/it] 75%|███████▍  | 3845/5155 [9:31:50<3:16:36,  9.01s/it] 75%|███████▍  | 3846/5155 [9:31:59<3:15:28,  8.96s/it] 75%|███████▍  | 3847/5155 [9:32:08<3:14:39,  8.93s/it] 75%|███████▍  | 3848/5155 [9:32:17<3:14:05,  8.91s/it] 75%|███████▍  | 3849/5155 [9:32:26<3:13:22,  8.88s/it] 75%|███████▍  | 3850/5155 [9:32:35<3:15:49,  9.00s/it]                                                       {'loss': '6.734e-05', 'grad_norm': '0.003888', 'learning_rate': '3.661e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '134', 'tokens/total': 63088640, 'tokens/trainable': 19973524, 'epoch': '3.735'}
+ 75%|███████▍  | 3850/5155 [9:32:35<3:15:49,  9.00s/it] 75%|███████▍  | 3851/5155 [9:32:44<3:14:39,  8.96s/it] 75%|███████▍  | 3852/5155 [9:32:53<3:13:50,  8.93s/it] 75%|███████▍  | 3853/5155 [9:33:02<3:12:56,  8.89s/it] 75%|███████▍  | 3854/5155 [9:33:11<3:15:19,  9.01s/it] 75%|███████▍  | 3855/5155 [9:33:20<3:14:10,  8.96s/it] 75%|███████▍  | 3856/5155 [9:33:29<3:13:17,  8.93s/it] 75%|███████▍  | 3857/5155 [9:33:37<3:12:23,  8.89s/it] 75%|███████▍  | 3858/5155 [9:33:46<3:11:50,  8.87s/it] 75%|███████▍  | 3859/5155 [9:33:56<3:14:19,  9.00s/it] 75%|███████▍  | 3860/5155 [9:34:04<3:13:15,  8.95s/it]                                                       {'loss': '9.266e-06', 'grad_norm': '0.00219', 'learning_rate': '3.609e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '150.6', 'tokens/total': 63252480, 'tokens/trainable': 20025408, 'epoch': '3.745'}
+ 75%|███████▍  | 3860/5155 [9:34:04<3:13:15,  8.95s/it] 75%|███████▍  | 3861/5155 [9:34:13<3:12:16,  8.92s/it] 75%|███████▍  | 3862/5155 [9:34:22<3:11:41,  8.89s/it] 75%|███████▍  | 3863/5155 [9:34:31<3:14:00,  9.01s/it] 75%|███████▍  | 3864/5155 [9:34:40<3:12:52,  8.96s/it] 75%|███████▍  | 3865/5155 [9:34:49<3:11:48,  8.92s/it] 75%|███████▍  | 3866/5155 [9:34:58<3:11:12,  8.90s/it] 75%|███████▌  | 3867/5155 [9:35:07<3:10:43,  8.88s/it] 75%|███████▌  | 3868/5155 [9:35:16<3:13:06,  9.00s/it] 75%|███████▌  | 3869/5155 [9:35:25<3:11:47,  8.95s/it] 75%|███████▌  | 3870/5155 [9:35:34<3:10:57,  8.92s/it]                                                       {'loss': '4.891e-05', 'grad_norm': '0.0001294', 'learning_rate': '3.557e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '146.1', 'tokens/total': 63416320, 'tokens/trainable': 20077088, 'epoch': '3.754'}
+ 75%|███████▌  | 3870/5155 [9:35:34<3:10:57,  8.92s/it] 75%|███████▌  | 3871/5155 [9:35:43<3:10:18,  8.89s/it] 75%|███████▌  | 3872/5155 [9:35:52<3:12:24,  9.00s/it] 75%|███████▌  | 3873/5155 [9:36:01<3:11:09,  8.95s/it] 75%|███████▌  | 3874/5155 [9:36:09<3:10:26,  8.92s/it] 75%|███████▌  | 3875/5155 [9:36:18<3:09:57,  8.90s/it] 75%|███████▌  | 3876/5155 [9:36:27<3:09:34,  8.89s/it] 75%|███████▌  | 3877/5155 [9:36:36<3:11:54,  9.01s/it] 75%|███████▌  | 3878/5155 [9:36:45<3:10:33,  8.95s/it] 75%|███████▌  | 3879/5155 [9:36:54<3:09:42,  8.92s/it] 75%|███████▌  | 3880/5155 [9:37:03<3:09:06,  8.90s/it]                                                       {'loss': '8.172e-05', 'grad_norm': '2.298e-05', 'learning_rate': '3.506e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '132.8', 'tokens/total': 63580160, 'tokens/trainable': 20128520, 'epoch': '3.764'}
+ 75%|███████▌  | 3880/5155 [9:37:03<3:09:06,  8.90s/it] 75%|███████▌  | 3881/5155 [9:37:12<3:12:40,  9.07s/it] 75%|███████▌  | 3882/5155 [9:37:22<3:12:23,  9.07s/it] 75%|███████▌  | 3883/5155 [9:37:30<3:10:51,  9.00s/it] 75%|███████▌  | 3884/5155 [9:37:39<3:09:42,  8.96s/it] 75%|███████▌  | 3885/5155 [9:37:48<3:08:54,  8.92s/it] 75%|███████▌  | 3886/5155 [9:37:57<3:10:52,  9.02s/it] 75%|███████▌  | 3887/5155 [9:38:06<3:09:31,  8.97s/it] 75%|███████▌  | 3888/5155 [9:38:15<3:08:37,  8.93s/it] 75%|███████▌  | 3889/5155 [9:38:24<3:08:00,  8.91s/it] 75%|███████▌  | 3890/5155 [9:38:33<3:10:00,  9.01s/it]                                                       {'loss': '2.542e-05', 'grad_norm': '0.0004975', 'learning_rate': '3.454e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '145.4', 'tokens/total': 63744000, 'tokens/trainable': 20180720, 'epoch': '3.774'}
+ 75%|███████▌  | 3890/5155 [9:38:33<3:10:00,  9.01s/it] 75%|███████▌  | 3891/5155 [9:38:42<3:08:45,  8.96s/it] 75%|███████▌  | 3892/5155 [9:38:51<3:07:54,  8.93s/it] 76%|███████▌  | 3893/5155 [9:39:00<3:07:18,  8.91s/it] 76%|███████▌  | 3894/5155 [9:39:09<3:06:46,  8.89s/it] 76%|███████▌  | 3895/5155 [9:39:18<3:08:53,  8.99s/it] 76%|███████▌  | 3896/5155 [9:39:27<3:07:47,  8.95s/it] 76%|███████▌  | 3897/5155 [9:39:35<3:06:56,  8.92s/it] 76%|███████▌  | 3898/5155 [9:39:44<3:06:19,  8.89s/it] 76%|███████▌  | 3899/5155 [9:39:54<3:08:31,  9.01s/it] 76%|███████▌  | 3900/5155 [9:40:02<3:07:32,  8.97s/it]                                                       {'loss': '4.03e-05', 'grad_norm': '0.01563', 'learning_rate': '3.403e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '144', 'tokens/total': 63907840, 'tokens/trainable': 20232340, 'epoch': '3.784'}
+ 76%|███████▌  | 3900/5155 [9:40:02<3:07:32,  8.97s/it] 76%|███████▌  | 3901/5155 [9:40:11<3:06:39,  8.93s/it] 76%|███████▌  | 3902/5155 [9:40:20<3:05:50,  8.90s/it] 76%|███████▌  | 3903/5155 [9:40:29<3:05:17,  8.88s/it] 76%|███████▌  | 3904/5155 [9:40:38<3:07:28,  8.99s/it] 76%|███████▌  | 3905/5155 [9:40:47<3:06:19,  8.94s/it] 76%|███████▌  | 3906/5155 [9:40:56<3:05:36,  8.92s/it] 76%|███████▌  | 3907/5155 [9:41:05<3:05:06,  8.90s/it] 76%|███████▌  | 3908/5155 [9:41:14<3:07:17,  9.01s/it] 76%|███████▌  | 3909/5155 [9:41:23<3:05:55,  8.95s/it] 76%|███████▌  | 3910/5155 [9:41:32<3:05:12,  8.93s/it]                                                       {'loss': '1.836e-05', 'grad_norm': '0.0002272', 'learning_rate': '3.352e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '149.2', 'tokens/total': 64071680, 'tokens/trainable': 20283830, 'epoch': '3.793'}
+ 76%|███████▌  | 3910/5155 [9:41:32<3:05:12,  8.93s/it] 76%|███████▌  | 3911/5155 [9:41:41<3:04:39,  8.91s/it] 76%|███████▌  | 3912/5155 [9:41:49<3:04:08,  8.89s/it] 76%|███████▌  | 3913/5155 [9:41:59<3:06:28,  9.01s/it] 76%|███████▌  | 3914/5155 [9:42:07<3:05:01,  8.95s/it] 76%|███████▌  | 3915/5155 [9:42:16<3:04:10,  8.91s/it] 76%|███████▌  | 3916/5155 [9:42:25<3:03:32,  8.89s/it] 76%|███████▌  | 3917/5155 [9:42:34<3:05:39,  9.00s/it] 76%|███████▌  | 3918/5155 [9:42:43<3:04:28,  8.95s/it] 76%|███████▌  | 3919/5155 [9:42:52<3:03:44,  8.92s/it] 76%|███████▌  | 3920/5155 [9:43:01<3:03:07,  8.90s/it]                                                       {'loss': '2.049e-05', 'grad_norm': '0.001128', 'learning_rate': '3.302e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '157.8', 'tokens/total': 64235520, 'tokens/trainable': 20335268, 'epoch': '3.803'}
+ 76%|███████▌  | 3920/5155 [9:43:01<3:03:07,  8.90s/it] 76%|███████▌  | 3921/5155 [9:43:10<3:02:40,  8.88s/it] 76%|███████▌  | 3922/5155 [9:43:19<3:04:41,  8.99s/it] 76%|███████▌  | 3923/5155 [9:43:28<3:03:29,  8.94s/it] 76%|███████▌  | 3924/5155 [9:43:37<3:02:47,  8.91s/it] 76%|███████▌  | 3925/5155 [9:43:46<3:02:17,  8.89s/it] 76%|███████▌  | 3926/5155 [9:43:55<3:04:21,  9.00s/it] 76%|███████▌  | 3927/5155 [9:44:04<3:03:20,  8.96s/it] 76%|███████▌  | 3928/5155 [9:44:13<3:02:34,  8.93s/it] 76%|███████▌  | 3929/5155 [9:44:21<3:02:01,  8.91s/it] 76%|███████▌  | 3930/5155 [9:44:30<3:01:13,  8.88s/it]                                                       {'loss': '1.108e-05', 'grad_norm': '0.0009212', 'learning_rate': '3.252e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '147.1', 'tokens/total': 64399360, 'tokens/trainable': 20386774, 'epoch': '3.813'}
+ 76%|███████▌  | 3930/5155 [9:44:30<3:01:13,  8.88s/it] 76%|███████▋  | 3931/5155 [9:44:39<3:03:31,  9.00s/it] 76%|███████▋  | 3932/5155 [9:44:48<3:02:31,  8.95s/it] 76%|███████▋  | 3933/5155 [9:44:57<3:01:48,  8.93s/it] 76%|███████▋  | 3934/5155 [9:45:06<3:01:15,  8.91s/it] 76%|███████▋  | 3935/5155 [9:45:15<3:03:01,  9.00s/it] 76%|███████▋  | 3936/5155 [9:45:24<3:01:52,  8.95s/it] 76%|███████▋  | 3937/5155 [9:45:33<3:01:10,  8.92s/it] 76%|███████▋  | 3938/5155 [9:45:42<3:00:47,  8.91s/it] 76%|███████▋  | 3939/5155 [9:45:51<3:00:30,  8.91s/it] 76%|███████▋  | 3940/5155 [9:46:00<3:02:22,  9.01s/it]                                                       {'loss': '1.98e-05', 'grad_norm': '1.011e-05', 'learning_rate': '3.202e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '133.5', 'tokens/total': 64563200, 'tokens/trainable': 20438552, 'epoch': '3.822'}
+ 76%|███████▋  | 3940/5155 [9:46:00<3:02:22,  9.01s/it] 76%|███████▋  | 3941/5155 [9:46:09<3:01:18,  8.96s/it] 76%|███████▋  | 3942/5155 [9:46:18<3:00:33,  8.93s/it] 76%|███████▋  | 3943/5155 [9:46:27<2:59:58,  8.91s/it] 77%|███████▋  | 3944/5155 [9:46:36<3:02:00,  9.02s/it] 77%|███████▋  | 3945/5155 [9:46:45<3:00:33,  8.95s/it] 77%|███████▋  | 3946/5155 [9:46:53<2:59:49,  8.92s/it] 77%|███████▋  | 3947/5155 [9:47:02<2:59:15,  8.90s/it] 77%|███████▋  | 3948/5155 [9:47:11<2:58:50,  8.89s/it] 77%|███████▋  | 3949/5155 [9:47:20<3:00:48,  9.00s/it] 77%|███████▋  | 3950/5155 [9:47:29<2:59:36,  8.94s/it]                                                       {'loss': '3.893e-06', 'grad_norm': '0.00123', 'learning_rate': '3.153e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '151', 'tokens/total': 64727040, 'tokens/trainable': 20490752, 'epoch': '3.832'}
+ 77%|███████▋  | 3950/5155 [9:47:29<2:59:36,  8.94s/it] 77%|███████▋  | 3951/5155 [9:47:38<2:59:12,  8.93s/it] 77%|███████▋  | 3952/5155 [9:47:47<2:59:08,  8.93s/it] 77%|███████▋  | 3953/5155 [9:47:56<3:01:04,  9.04s/it] 77%|███████▋  | 3954/5155 [9:48:05<2:59:46,  8.98s/it] 77%|███████▋  | 3955/5155 [9:48:14<2:58:48,  8.94s/it] 77%|███████▋  | 3956/5155 [9:48:23<2:58:09,  8.92s/it] 77%|███████▋  | 3957/5155 [9:48:32<2:57:40,  8.90s/it] 77%|███████▋  | 3958/5155 [9:48:41<2:59:38,  9.00s/it] 77%|███████▋  | 3959/5155 [9:48:50<2:58:36,  8.96s/it] 77%|███████▋  | 3960/5155 [9:48:59<2:57:49,  8.93s/it]                                                       {'loss': '1.608e-05', 'grad_norm': '7.13e-05', 'learning_rate': '3.103e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '153.8', 'tokens/total': 64890880, 'tokens/trainable': 20542748, 'epoch': '3.842'}
+ 77%|███████▋  | 3960/5155 [9:48:59<2:57:49,  8.93s/it] 77%|███████▋  | 3961/5155 [9:49:08<2:57:13,  8.91s/it] 77%|███████▋  | 3962/5155 [9:49:17<2:59:09,  9.01s/it] 77%|███████▋  | 3963/5155 [9:49:26<2:57:59,  8.96s/it] 77%|███████▋  | 3964/5155 [9:49:35<2:57:11,  8.93s/it] 77%|███████▋  | 3965/5155 [9:49:43<2:56:29,  8.90s/it] 77%|███████▋  | 3966/5155 [9:49:53<2:58:33,  9.01s/it] 77%|███████▋  | 3967/5155 [9:50:02<2:57:31,  8.97s/it] 77%|███████▋  | 3968/5155 [9:50:10<2:56:44,  8.93s/it] 77%|███████▋  | 3969/5155 [9:50:19<2:55:56,  8.90s/it] 77%|███████▋  | 3970/5155 [9:50:28<2:55:29,  8.89s/it]                                                       {'loss': '7.035e-06', 'grad_norm': '5.474e-05', 'learning_rate': '3.054e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '153.9', 'tokens/total': 65054720, 'tokens/trainable': 20594764, 'epoch': '3.851'}
+ 77%|███████▋  | 3970/5155 [9:50:28<2:55:29,  8.89s/it] 77%|███████▋  | 3971/5155 [9:50:37<2:57:39,  9.00s/it] 77%|███████▋  | 3972/5155 [9:50:46<2:56:37,  8.96s/it] 77%|███████▋  | 3973/5155 [9:50:55<2:55:55,  8.93s/it] 77%|███████▋  | 3974/5155 [9:51:04<2:55:01,  8.89s/it] 77%|███████▋  | 3975/5155 [9:51:13<2:57:04,  9.00s/it] 77%|███████▋  | 3976/5155 [9:51:22<2:56:04,  8.96s/it] 77%|███████▋  | 3977/5155 [9:51:31<2:55:18,  8.93s/it] 77%|███████▋  | 3978/5155 [9:51:40<2:54:36,  8.90s/it] 77%|███████▋  | 3979/5155 [9:51:48<2:54:07,  8.88s/it] 77%|���██████▋  | 3980/5155 [9:51:58<2:56:15,  9.00s/it]                                                       {'loss': '7.135e-06', 'grad_norm': '2.462e-05', 'learning_rate': '3.006e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '139', 'tokens/total': 65218560, 'tokens/trainable': 20646930, 'epoch': '3.861'}
+ 77%|███████▋  | 3980/5155 [9:51:58<2:56:15,  9.00s/it] 77%|███████▋  | 3981/5155 [9:52:07<2:55:17,  8.96s/it] 77%|███████▋  | 3982/5155 [9:52:15<2:54:28,  8.92s/it] 77%|███████▋  | 3983/5155 [9:52:24<2:53:47,  8.90s/it] 77%|███████▋  | 3984/5155 [9:52:34<2:55:50,  9.01s/it] 77%|███████▋  | 3985/5155 [9:52:42<2:54:46,  8.96s/it] 77%|███████▋  | 3986/5155 [9:52:51<2:54:00,  8.93s/it] 77%|███████▋  | 3987/5155 [9:53:00<2:53:13,  8.90s/it] 77%|███████▋  | 3988/5155 [9:53:09<2:52:39,  8.88s/it] 77%|███████▋  | 3989/5155 [9:53:18<2:54:45,  8.99s/it] 77%|███████▋  | 3990/5155 [9:53:27<2:53:44,  8.95s/it]                                                       {'loss': '3.88e-06', 'grad_norm': '0.000308', 'learning_rate': '2.958e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '155.2', 'tokens/total': 65382400, 'tokens/trainable': 20699092, 'epoch': '3.871'}
+ 77%|███████▋  | 3990/5155 [9:53:27<2:53:44,  8.95s/it] 77%|███████▋  | 3991/5155 [9:53:36<2:53:00,  8.92s/it] 77%|███████▋  | 3992/5155 [9:53:45<2:52:14,  8.89s/it] 77%|███████▋  | 3993/5155 [9:53:54<2:54:23,  9.00s/it] 77%|███████▋  | 3994/5155 [9:54:03<2:53:21,  8.96s/it] 77%|███████▋  | 3995/5155 [9:54:12<2:52:37,  8.93s/it] 78%|███████▊  | 3996/5155 [9:54:21<2:51:57,  8.90s/it] 78%|███████▊  | 3997/5155 [9:54:29<2:51:31,  8.89s/it] 78%|███████▊  | 3998/5155 [9:54:39<2:53:35,  9.00s/it] 78%|███████▊  | 3999/5155 [9:54:48<2:52:34,  8.96s/it] 78%|███████▊  | 4000/5155 [9:54:56<2:51:38,  8.92s/it]                                                       {'loss': '3.185e-06', 'grad_norm': '0.000102', 'learning_rate': '2.91e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '143.2', 'tokens/total': 65546240, 'tokens/trainable': 20751248, 'epoch': '3.88'}
+ 78%|███████▊  | 4000/5155 [9:54:56<2:51:38,  8.92s/it] 78%|███████▊  | 4001/5155 [9:55:05<2:51:08,  8.90s/it] 78%|███████▊  | 4002/5155 [9:55:14<2:53:13,  9.01s/it] 78%|███████▊  | 4003/5155 [9:55:23<2:52:09,  8.97s/it] 78%|███████▊  | 4004/5155 [9:55:32<2:51:11,  8.92s/it] 78%|███████▊  | 4005/5155 [9:55:41<2:50:35,  8.90s/it] 78%|███████▊  | 4006/5155 [9:55:50<2:50:06,  8.88s/it] 78%|███████▊  | 4007/5155 [9:55:59<2:52:03,  8.99s/it] 78%|███████▊  | 4008/5155 [9:56:08<2:50:55,  8.94s/it] 78%|███████▊  | 4009/5155 [9:56:17<2:50:21,  8.92s/it] 78%|███████▊  | 4010/5155 [9:56:26<2:49:51,  8.90s/it]                                                       {'loss': '1.815e-06', 'grad_norm': '0.0004781', 'learning_rate': '2.862e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '141.5', 'tokens/total': 65710080, 'tokens/trainable': 20803052, 'epoch': '3.89'}
+ 78%|███████▊  | 4010/5155 [9:56:26<2:49:51,  8.90s/it] 78%|███████▊  | 4011/5155 [9:56:35<2:51:53,  9.02s/it] 78%|███████▊  | 4012/5155 [9:56:44<2:50:47,  8.97s/it] 78%|███████▊  | 4013/5155 [9:56:53<2:49:43,  8.92s/it] 78%|███████▊  | 4014/5155 [9:57:01<2:49:11,  8.90s/it] 78%|███████▊  | 4015/5155 [9:57:10<2:48:49,  8.89s/it] 78%|███████▊  | 4016/5155 [9:57:20<2:51:37,  9.04s/it] 78%|███████▊  | 4017/5155 [9:57:29<2:50:20,  8.98s/it] 78%|███████▊  | 4018/5155 [9:57:37<2:49:22,  8.94s/it] 78%|███████▊  | 4019/5155 [9:57:46<2:48:50,  8.92s/it] 78%|███████▊  | 4020/5155 [9:57:56<2:50:47,  9.03s/it]                                                       {'loss': '6.231e-06', 'grad_norm': '3.845e-05', 'learning_rate': '2.815e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '144.6', 'tokens/total': 65873920, 'tokens/trainable': 20855036, 'epoch': '3.9'}
+ 78%|███████▊  | 4020/5155 [9:57:56<2:50:47,  9.03s/it] 78%|███████▊  | 4021/5155 [9:58:04<2:49:41,  8.98s/it] 78%|███████▊  | 4022/5155 [9:58:13<2:48:32,  8.93s/it] 78%|███████▊  | 4023/5155 [9:58:22<2:47:55,  8.90s/it] 78%|███████▊  | 4024/5155 [9:58:31<2:47:27,  8.88s/it] 78%|███████▊  | 4025/5155 [9:58:40<2:49:29,  9.00s/it] 78%|███████▊  | 4026/5155 [9:58:49<2:48:23,  8.95s/it] 78%|███████▊  | 4027/5155 [9:58:58<2:47:42,  8.92s/it] 78%|███████▊  | 4028/5155 [9:59:07<2:47:07,  8.90s/it] 78%|███████▊  | 4029/5155 [9:59:16<2:49:13,  9.02s/it] 78%|███████▊  | 4030/5155 [9:59:25<2:48:01,  8.96s/it]                                                       {'loss': '1.246e-05', 'grad_norm': '1.545e-05', 'learning_rate': '2.768e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '137.5', 'tokens/total': 66037760, 'tokens/trainable': 20906882, 'epoch': '3.91'}
+ 78%|███████▊  | 4030/5155 [9:59:25<2:48:01,  8.96s/it] 78%|███████▊  | 4031/5155 [9:59:34<2:47:18,  8.93s/it] 78%|███████▊  | 4032/5155 [9:59:43<2:46:43,  8.91s/it] 78%|███████▊  | 4033/5155 [9:59:51<2:46:16,  8.89s/it] 78%|███████▊  | 4034/5155 [10:00:01<2:48:19,  9.01s/it] 78%|███████▊  | 4035/5155 [10:00:09<2:47:14,  8.96s/it] 78%|███████▊  | 4036/5155 [10:00:18<2:46:28,  8.93s/it] 78%|███████▊  | 4037/5155 [10:00:27<2:45:56,  8.91s/it] 78%|███████▊  | 4038/5155 [10:00:36<2:47:50,  9.02s/it] 78%|███████▊  | 4039/5155 [10:00:45<2:46:39,  8.96s/it] 78%|███████▊  | 4040/5155 [10:00:54<2:45:56,  8.93s/it]                                                        {'loss': '9.684e-06', 'grad_norm': '3.035e-05', 'learning_rate': '2.721e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '152.6', 'tokens/total': 66201600, 'tokens/trainable': 20958884, 'epoch': '3.919'}
+ 78%|███████▊  | 4040/5155 [10:00:54<2:45:56,  8.93s/it] 78%|███████▊  | 4041/5155 [10:01:03<2:45:21,  8.91s/it] 78%|███████▊  | 4042/5155 [10:01:12<2:44:53,  8.89s/it] 78%|███████▊  | 4043/5155 [10:01:21<2:46:52,  9.00s/it] 78%|███████▊  | 4044/5155 [10:01:30<2:45:51,  8.96s/it] 78%|███████▊  | 4045/5155 [10:01:39<2:45:07,  8.93s/it] 78%|███████▊  | 4046/5155 [10:01:48<2:44:23,  8.89s/it] 79%|███████▊  | 4047/5155 [10:01:57<2:46:18,  9.01s/it] 79%|███████▊  | 4048/5155 [10:02:06<2:45:17,  8.96s/it] 79%|███████▊  | 4049/5155 [10:02:15<2:44:30,  8.92s/it] 79%|███████▊  | 4050/5155 [10:02:23<2:43:47,  8.89s/it]                                                        {'loss': '2.196e-05', 'grad_norm': '2.036e-05', 'learning_rate': '2.675e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '153.9', 'tokens/total': 66365440, 'tokens/trainable': 21010276, 'epoch': '3.929'}
+ 79%|███████▊  | 4050/5155 [10:02:23<2:43:47,  8.89s/it] 79%|███████▊  | 4051/5155 [10:02:32<2:43:24,  8.88s/it] 79%|███████▊  | 4052/5155 [10:02:42<2:45:17,  8.99s/it] 79%|███████▊  | 4053/5155 [10:02:50<2:44:19,  8.95s/it] 79%|███████▊  | 4054/5155 [10:02:59<2:43:26,  8.91s/it] 79%|███████▊  | 4055/5155 [10:03:08<2:42:58,  8.89s/it] 79%|███████▊  | 4056/5155 [10:03:17<2:44:54,  9.00s/it] 79%|███████▊  | 4057/5155 [10:03:26<2:43:47,  8.95s/it] 79%|███████▊  | 4058/5155 [10:03:35<2:43:05,  8.92s/it] 79%|███████▊  | 4059/5155 [10:03:44<2:42:35,  8.90s/it] 79%|███████▉  | 4060/5155 [10:03:53<2:42:13,  8.89s/it]                                                        {'loss': '1.335e-05', 'grad_norm': '0.0004253', 'learning_rate': '2.629e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '144.7', 'tokens/total': 66529280, 'tokens/trainable': 21062258, 'epoch': '3.939'}
+ 79%|███████▉  | 4060/5155 [10:03:53<2:42:13,  8.89s/it] 79%|███████▉  | 4061/5155 [10:04:02<2:44:02,  9.00s/it] 79%|███████▉  | 4062/5155 [10:04:11<2:43:02,  8.95s/it] 79%|███████▉  | 4063/5155 [10:04:20<2:42:16,  8.92s/it] 79%|███████▉  | 4064/5155 [10:04:28<2:41:46,  8.90s/it] 79%|███████▉  | 4065/5155 [10:04:38<2:43:39,  9.01s/it] 79%|███████▉  | 4066/5155 [10:04:47<2:42:32,  8.96s/it] 79%|███████▉  | 4067/5155 [10:04:55<2:41:50,  8.93s/it] 79%|███████▉  | 4068/5155 [10:05:04<2:41:17,  8.90s/it] 79%|███████▉  | 4069/5155 [10:05:13<2:40:46,  8.88s/it] 79%|███████▉  | 4070/5155 [10:05:22<2:42:44,  9.00s/it]                                                        {'loss': '6.81e-06', 'grad_norm': '0.001999', 'learning_rate': '2.584e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '141.4', 'tokens/total': 66693120, 'tokens/trainable': 21114804, 'epoch': '3.948'}
+ 79%|███████▉  | 4070/5155 [10:05:22<2:42:44,  9.00s/it] 79%|███████▉  | 4071/5155 [10:05:31<2:41:48,  8.96s/it] 79%|███████▉  | 4072/5155 [10:05:40<2:41:01,  8.92s/it] 79%|███████▉  | 4073/5155 [10:05:49<2:40:21,  8.89s/it] 79%|███████▉  | 4074/5155 [10:05:58<2:42:12,  9.00s/it] 79%|███████▉  | 4075/5155 [10:06:07<2:41:09,  8.95s/it] 79%|███████▉  | 4076/5155 [10:06:16<2:40:24,  8.92s/it] 79%|███████▉  | 4077/5155 [10:06:25<2:39:47,  8.89s/it] 79%|███████▉  | 4078/5155 [10:06:34<2:39:26,  8.88s/it] 79%|███████▉  | 4079/5155 [10:06:43<2:41:15,  8.99s/it] 79%|███████▉  | 4080/5155 [10:06:52<2:40:19,  8.95s/it]                                                        {'loss': '7.637e-06', 'grad_norm': '0.008326', 'learning_rate': '2.538e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '150', 'tokens/total': 66856960, 'tokens/trainable': 21166612, 'epoch': '3.958'}
+ 79%|███████▉  | 4080/5155 [10:06:52<2:40:19,  8.95s/it] 79%|███████▉  | 4081/5155 [10:07:00<2:39:33,  8.91s/it] 79%|███████▉  | 4082/5155 [10:07:09<2:39:00,  8.89s/it] 79%|███████▉  | 4083/5155 [10:07:19<2:41:03,  9.01s/it] 79%|███████▉  | 4084/5155 [10:07:27<2:40:05,  8.97s/it] 79%|███████▉  | 4085/5155 [10:07:36<2:39:15,  8.93s/it] 79%|███████▉  | 4086/5155 [10:07:45<2:38:31,  8.90s/it] 79%|███████▉  | 4087/5155 [10:07:54<2:38:00,  8.88s/it] 79%|███████▉  | 4088/5155 [10:08:03<2:39:59,  9.00s/it] 79%|███████▉  | 4089/5155 [10:08:12<2:39:04,  8.95s/it] 79%|███████▉  | 4090/5155 [10:08:21<2:38:15,  8.92s/it]                                                        {'loss': '6.109e-06', 'grad_norm': '0.0002312', 'learning_rate': '2.494e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '149.3', 'tokens/total': 67020800, 'tokens/trainable': 21218182, 'epoch': '3.968'}
+ 79%|███████▉  | 4090/5155 [10:08:21<2:38:15,  8.92s/it] 79%|███████▉  | 4091/5155 [10:08:30<2:37:45,  8.90s/it] 79%|███████▉  | 4092/5155 [10:08:39<2:39:38,  9.01s/it] 79%|███████▉  | 4093/5155 [10:08:48<2:38:39,  8.96s/it] 79%|███████▉  | 4094/5155 [10:08:57<2:37:42,  8.92s/it] 79%|███████▉  | 4095/5155 [10:09:06<2:37:10,  8.90s/it] 79%|███████▉  | 4096/5155 [10:09:14<2:36:47,  8.88s/it] 79%|███████▉  | 4097/5155 [10:09:24<2:38:33,  8.99s/it] 79%|███████▉  | 4098/5155 [10:09:32<2:37:31,  8.94s/it] 80%|███████▉  | 4099/5155 [10:09:41<2:36:56,  8.92s/it] 80%|███████▉  | 4100/5155 [10:09:50<2:36:30,  8.90s/it]                                                        {'loss': '6.239e-06', 'grad_norm': '0.003937', 'learning_rate': '2.449e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '151.7', 'tokens/total': 67184640, 'tokens/trainable': 21269560, 'epoch': '3.977'}
+ 80%|███████▉  | 4100/5155 [10:09:50<2:36:30,  8.90s/it] 80%|███████▉  | 4101/5155 [10:09:59<2:38:17,  9.01s/it] 80%|███████▉  | 4102/5155 [10:10:08<2:37:13,  8.96s/it] 80%|███████▉  | 4103/5155 [10:10:17<2:36:29,  8.93s/it] 80%|███████▉  | 4104/5155 [10:10:26<2:35:58,  8.90s/it] 80%|███████▉  | 4105/5155 [10:10:35<2:35:32,  8.89s/it] 80%|███████▉  | 4106/5155 [10:10:44<2:37:15,  8.99s/it] 80%|███████▉  | 4107/5155 [10:10:53<2:36:17,  8.95s/it] 80%|███████▉  | 4108/5155 [10:11:02<2:35:36,  8.92s/it] 80%|███████▉  | 4109/5155 [10:11:11<2:35:10,  8.90s/it] 80%|███████▉  | 4110/5155 [10:11:20<2:36:56,  9.01s/it]                                                        {'loss': '3.798e-05', 'grad_norm': '0.0002559', 'learning_rate': '2.405e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '132.3', 'tokens/total': 67348480, 'tokens/trainable': 21321712, 'epoch': '3.987'}
+ 80%|███████▉  | 4110/5155 [10:11:20<2:36:56,  9.01s/it] 80%|███████▉  | 4111/5155 [10:11:29<2:35:49,  8.96s/it] 80%|███████▉  | 4112/5155 [10:11:38<2:35:06,  8.92s/it] 80%|███████▉  | 4113/5155 [10:11:46<2:34:34,  8.90s/it] 80%|███████▉  | 4114/5155 [10:11:55<2:34:11,  8.89s/it] 80%|███████▉  | 4115/5155 [10:12:05<2:35:47,  8.99s/it] 80%|███████▉  | 4116/5155 [10:12:13<2:34:54,  8.95s/it] 80%|███████▉  | 4117/5155 [10:12:22<2:34:14,  8.92s/it] 80%|███████▉  | 4118/5155 [10:12:31<2:33:44,  8.90s/it] 80%|███████▉  | 4119/5155 [10:12:40<2:35:15,  8.99s/it] 80%|███████▉  | 4120/5155 [10:12:49<2:34:21,  8.95s/it]                                                        {'loss': '1.228e-05', 'grad_norm': '0.00206', 'learning_rate': '2.361e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '139.1', 'tokens/total': 67512320, 'tokens/trainable': 21373422, 'epoch': '3.997'}
+ 80%|███████▉  | 4120/5155 [10:12:49<2:34:21,  8.95s/it] 80%|███████▉  | 4121/5155 [10:12:58<2:33:43,  8.92s/it] 80%|███████▉  | 4122/5155 [10:13:07<2:33:13,  8.90s/it] 80%|███████▉  | 4123/5155 [10:13:23<3:10:31, 11.08s/it] 80%|████████  | 4124/5155 [10:13:32<2:58:53, 10.41s/it][2026-02-26 09:34:18,613] [INFO] [axolotl.core.trainers.base._save:721] [PID:2758243] Saving model checkpoint to /home/jiaruil5/math_rl/mix_teachers/r3lit_rl/mix_teachers/checkpoints/math_operations/primitive_atomic_balanced_sft_50k/checkpoint-4124
+ 80%|████████  | 4125/5155 [10:13:43<3:03:10, 10.67s/it] 80%|████████  | 4126/5155 [10:13:52<2:53:31, 10.12s/it] 80%|████████  | 4127/5155 [10:14:01<2:49:46,  9.91s/it] 80%|████████  | 4128/5155 [10:14:10<2:44:08,  9.59s/it][2026-02-26 09:34:56,981] [INFO] [axolotl.core.trainers.base.evaluate:400] [PID:2758243] Running evaluation step...
+[2026-02-26 09:34:58,382] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.6865134239196777
+[2026-02-26 09:34:59,094] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.7118992805480957
+[2026-02-26 09:34:59,839] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.7446231842041016
+[2026-02-26 09:35:00,537] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.6974060535430908
+[2026-02-26 09:35:00,537] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:2758243] gather_len_batches: [17]
+
+  0%|          | 0/17 [00:00<?, ?it/s][A
+ 12%|█▏        | 2/17 [00:00<00:04,  3.18it/s][A
+ 18%|█▊        | 3/17 [00:01<00:06,  2.23it/s][A
+ 24%|██▎       | 4/17 [00:01<00:06,  1.93it/s][A
+ 29%|██▉       | 5/17 [00:02<00:07,  1.67it/s][A
+ 35%|███▌      | 6/17 [00:03<00:06,  1.64it/s][A
+ 41%|████      | 7/17 [00:03<00:06,  1.62it/s][A
+ 47%|████▋     | 8/17 [00:04<00:05,  1.60it/s][A
+ 53%|█████▎    | 9/17 [00:05<00:06,  1.16it/s][A
+ 59%|█████▉    | 10/17 [00:06<00:05,  1.27it/s][A
+ 65%|██████▍   | 11/17 [00:07<00:04,  1.35it/s][A
+ 71%|███████   | 12/17 [00:07<00:03,  1.41it/s][A
+ 76%|███████▋  | 13/17 [00:08<00:02,  1.38it/s][A
+ 82%|████████▏ | 14/17 [00:09<00:02,  1.44it/s][A
+ 88%|████████▊ | 15/17 [00:09<00:01,  1.49it/s][A
+ 94%|█████████▍| 16/17 [00:10<00:00,  1.52it/s][A
+100%|██████████| 17/17 [00:11<00:00,  1.54it/s][A                                                        
+                                               [A{'eval_loss': '5.071e-06', 'eval_runtime': '12.78', 'eval_samples_per_second': '15.65', 'eval_steps_per_second': '7.823', 'eval_ppl': '1', 'memory/max_active (GiB)': '16.73', 'memory/max_allocated (GiB)': '16.73', 'memory/device_reserved (GiB)': '20.01', 'epoch': '4.006', 'tokens/train_per_sec_per_gpu': '126.6'}
+ 80%|████████  | 4128/5155 [10:14:27<2:44:08,  9.59s/it]
+100%|██████████| 17/17 [00:11<00:00,  1.54it/s][A
+                                               [A 80%|████████  | 4129/5155 [10:14:35<4:04:22, 14.29s/it] 80%|████████  | 4130/5155 [10:14:44<3:36:05, 12.65s/it]                                                        {'loss': '2.652e-05', 'grad_norm': '0.001382', 'learning_rate': '2.317e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '144.4', 'tokens/total': 67686400, 'tokens/trainable': 21428176, 'epoch': '4.008'}
+ 80%|████████  | 4130/5155 [10:14:44<3:36:05, 12.65s/it] 80%|████████  | 4131/5155 [10:14:53<3:16:19, 11.50s/it] 80%|████████  | 4132/5155 [10:15:02<3:02:25, 10.70s/it] 80%|████████  | 4133/5155 [10:15:11<2:55:12, 10.29s/it] 80%|████████  | 4134/5155 [10:15:20<2:48:21,  9.89s/it] 80%|████████  | 4135/5155 [10:15:29<2:42:51,  9.58s/it] 80%|████████  | 4136/5155 [10:15:38<2:38:56,  9.36s/it] 80%|████████  | 4137/5155 [10:15:47<2:38:24,  9.34s/it] 80%|████████  | 4138/5155 [10:15:56<2:35:47,  9.19s/it] 80%|████████  | 4139/5155 [10:16:05<2:33:56,  9.09s/it] 80%|████████  | 4140/5155 [10:16:14<2:32:33,  9.02s/it]                                                        {'loss': '1.406e-06', 'grad_norm': '7.492e-06', 'learning_rate': '2.274e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '135.4', 'tokens/total': 67850240, 'tokens/trainable': 21480288, 'epoch': '4.017'}
+ 80%|████████  | 4140/5155 [10:16:14<2:32:33,  9.02s/it] 80%|████████  | 4141/5155 [10:16:23<2:31:28,  8.96s/it] 80%|████████  | 4142/5155 [10:16:32<2:33:00,  9.06s/it] 80%|████████  | 4143/5155 [10:16:41<2:31:48,  9.00s/it] 80%|████████  | 4144/5155 [10:16:50<2:30:56,  8.96s/it] 80%|████████  | 4145/5155 [10:16:58<2:30:05,  8.92s/it] 80%|████████  | 4146/5155 [10:17:08<2:31:51,  9.03s/it] 80%|████████  | 4147/5155 [10:17:17<2:30:49,  8.98s/it] 80%|████████  | 4148/5155 [10:17:25<2:30:07,  8.94s/it] 80%|████████  | 4149/5155 [10:17:34<2:29:31,  8.92s/it] 81%|████████  | 4150/5155 [10:17:43<2:28:49,  8.89s/it]                                                        {'loss': '2.697e-06', 'grad_norm': '8.752e-06', 'learning_rate': '2.231e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '146.3', 'tokens/total': 68014080, 'tokens/trainable': 21532408, 'epoch': '4.027'}
+ 81%|████████  | 4150/5155 [10:17:43<2:28:49,  8.89s/it] 81%|████████  | 4151/5155 [10:17:52<2:30:35,  9.00s/it] 81%|████████  | 4152/5155 [10:18:01<2:29:44,  8.96s/it] 81%|████████  | 4153/5155 [10:18:10<2:29:05,  8.93s/it] 81%|████████  | 4154/5155 [10:18:19<2:28:23,  8.89s/it] 81%|████████  | 4155/5155 [10:18:28<2:30:10,  9.01s/it] 81%|████████  | 4156/5155 [10:18:37<2:29:15,  8.96s/it] 81%|████████  | 4157/5155 [10:18:46<2:28:34,  8.93s/it] 81%|████████  | 4158/5155 [10:18:55<2:28:01,  8.91s/it] 81%|████████  | 4159/5155 [10:19:04<2:27:32,  8.89s/it] 81%|████████  | 4160/5155 [10:19:13<2:29:27,  9.01s/it]                                                        {'loss': '1.823e-06', 'grad_norm': '1.59e-05', 'learning_rate': '2.189e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '139', 'tokens/total': 68177920, 'tokens/trainable': 21584204, 'epoch': '4.037'}
+ 81%|████████  | 4160/5155 [10:19:13<2:29:27,  9.01s/it] 81%|████████  | 4161/5155 [10:19:22<2:28:30,  8.96s/it] 81%|████████  | 4162/5155 [10:19:31<2:27:46,  8.93s/it] 81%|████████  | 4163/5155 [10:19:39<2:27:08,  8.90s/it] 81%|████████  | 4164/5155 [10:19:49<2:28:49,  9.01s/it] 81%|████████  | 4165/5155 [10:19:58<2:27:52,  8.96s/it] 81%|████████  | 4166/5155 [10:20:06<2:27:09,  8.93s/it] 81%|████████  | 4167/5155 [10:20:15<2:26:31,  8.90s/it] 81%|████████  | 4168/5155 [10:20:24<2:26:08,  8.88s/it] 81%|████████  | 4169/5155 [10:20:33<2:27:58,  9.00s/it] 81%|████████  | 4170/5155 [10:20:42<2:27:01,  8.96s/it]                                                        {'loss': '2.489e-06', 'grad_norm': '8.906e-05', 'learning_rate': '2.147e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '152.9', 'tokens/total': 68341760, 'tokens/trainable': 21636174, 'epoch': '4.047'}
+ 81%|█████���██  | 4170/5155 [10:20:42<2:27:01,  8.96s/it] 81%|████████  | 4171/5155 [10:20:51<2:26:13,  8.92s/it] 81%|████████  | 4172/5155 [10:21:00<2:25:41,  8.89s/it] 81%|████████  | 4173/5155 [10:21:09<2:27:13,  9.00s/it] 81%|████████  | 4174/5155 [10:21:18<2:26:16,  8.95s/it] 81%|████████  | 4175/5155 [10:21:27<2:25:30,  8.91s/it] 81%|████████  | 4176/5155 [10:21:36<2:25:06,  8.89s/it] 81%|████████  | 4177/5155 [10:21:44<2:24:45,  8.88s/it] 81%|████████  | 4178/5155 [10:21:54<2:26:28,  9.00s/it] 81%|████████  | 4179/5155 [10:22:03<2:25:36,  8.95s/it] 81%|████████  | 4180/5155 [10:22:11<2:24:41,  8.90s/it]                                                        {'loss': '7.007e-06', 'grad_norm': '0.0002917', 'learning_rate': '2.105e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '155.4', 'tokens/total': 68505600, 'tokens/trainable': 21687110, 'epoch': '4.056'}
+ 81%|████████  | 4180/5155 [10:22:11<2:24:41,  8.90s/it] 81%|████████  | 4181/5155 [10:22:20<2:24:15,  8.89s/it] 81%|████████  | 4182/5155 [10:22:29<2:25:50,  8.99s/it] 81%|████████  | 4183/5155 [10:22:38<2:24:58,  8.95s/it] 81%|████████  | 4184/5155 [10:22:47<2:24:12,  8.91s/it] 81%|████████  | 4185/5155 [10:22:56<2:23:43,  8.89s/it] 81%|████████  | 4186/5155 [10:23:05<2:23:22,  8.88s/it] 81%|████████  | 4187/5155 [10:23:14<2:25:03,  8.99s/it] 81%|████████  | 4188/5155 [10:23:23<2:24:06,  8.94s/it] 81%|████████▏ | 4189/5155 [10:23:32<2:23:29,  8.91s/it] 81%|████████▏ | 4190/5155 [10:23:41<2:23:02,  8.89s/it]                                                        {'loss': '4.237e-06', 'grad_norm': '0.0001349', 'learning_rate': '2.064e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '139', 'tokens/total': 68669440, 'tokens/trainable': 21739384, 'epoch': '4.066'}
+ 81%|████████▏ | 4190/5155 [10:23:41<2:23:02,  8.89s/it] 81%|████████▏ | 4191/5155 [10:23:50<2:24:39,  9.00s/it] 81%|████████▏ | 4192/5155 [10:23:59<2:23:44,  8.96s/it] 81%|████████▏ | 4193/5155 [10:24:08<2:22:50,  8.91s/it] 81%|████████▏ | 4194/5155 [10:24:16<2:22:22,  8.89s/it] 81%|████████▏ | 4195/5155 [10:24:25<2:22:05,  8.88s/it] 81%|████████▏ | 4196/5155 [10:24:35<2:23:50,  9.00s/it] 81%|████████▏ | 4197/5155 [10:24:43<2:22:51,  8.95s/it] 81%|████████▏ | 4198/5155 [10:24:52<2:22:12,  8.92s/it] 81%|████████▏ | 4199/5155 [10:25:01<2:21:43,  8.89s/it] 81%|████████▏ | 4200/5155 [10:25:10<2:23:19,  9.00s/it]                                                        {'loss': '1.327e-05', 'grad_norm': '6.238e-05', 'learning_rate': '2.023e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '151.6', 'tokens/total': 68833280, 'tokens/trainable': 21791480, 'epoch': '4.076'}
+ 81%|████████▏ | 4200/5155 [10:25:10<2:23:19,  9.00s/it] 81%|████████▏ | 4201/5155 [10:25:19<2:22:23,  8.96s/it] 82%|████████▏ | 4202/5155 [10:25:28<2:21:39,  8.92s/it] 82%|████████▏ | 4203/5155 [10:25:37<2:21:10,  8.90s/it] 82%|████████▏ | 4204/5155 [10:25:46<2:20:48,  8.88s/it] 82%|████████▏ | 4205/5155 [10:25:55<2:22:26,  9.00s/it] 82%|████████▏ | 4206/5155 [10:26:04<2:21:27,  8.94s/it] 82%|████████▏ | 4207/5155 [10:26:13<2:20:55,  8.92s/it] 82%|████████▏ | 4208/5155 [10:26:21<2:20:32,  8.90s/it] 82%|████████▏ | 4209/5155 [10:26:31<2:22:09,  9.02s/it] 82%|████████▏ | 4210/5155 [10:26:40<2:21:15,  8.97s/it]                                                        {'loss': '3.035e-06', 'grad_norm': '1.79e-05', 'learning_rate': '1.982e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '154.9', 'tokens/total': 68997120, 'tokens/trainable': 21842640, 'epoch': '4.085'}
+ 82%|████████▏ | 4210/5155 [10:26:40<2:21:15,  8.97s/it] 82%|████████▏ | 4211/5155 [10:26:48<2:20:35,  8.94s/it] 82%|████████▏ | 4212/5155 [10:26:57<2:20:06,  8.91s/it] 82%|████████▏ | 4213/5155 [10:27:06<2:19:45,  8.90s/it] 82%|████████▏ | 4214/5155 [10:27:15<2:21:10,  9.00s/it] 82%|████████▏ | 4215/5155 [10:27:24<2:20:16,  8.95s/it] 82%|████████▏ | 4216/5155 [10:27:33<2:19:38,  8.92s/it] 82%|████████▏ | 4217/5155 [10:27:42<2:19:11,  8.90s/it] 82%|████████▏ | 4218/5155 [10:27:51<2:20:47,  9.02s/it] 82%|████████▏ | 4219/5155 [10:28:00<2:19:43,  8.96s/it] 82%|████████▏ | 4220/5155 [10:28:09<2:19:03,  8.92s/it]                                                        {'loss': '9.733e-07', 'grad_norm': '3.439e-05', 'learning_rate': '1.942e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '144.4', 'tokens/total': 69160960, 'tokens/trainable': 21894708, 'epoch': '4.095'}
+ 82%|████████▏ | 4220/5155 [10:28:09<2:19:03,  8.92s/it] 82%|████████▏ | 4221/5155 [10:28:18<2:18:28,  8.90s/it] 82%|████████▏ | 4222/5155 [10:28:27<2:18:00,  8.88s/it] 82%|████████▏ | 4223/5155 [10:28:36<2:19:35,  8.99s/it] 82%|████████▏ | 4224/5155 [10:28:45<2:18:47,  8.94s/it] 82%|████████▏ | 4225/5155 [10:28:54<2:18:11,  8.92s/it] 82%|████████▏ | 4226/5155 [10:29:02<2:17:39,  8.89s/it] 82%|████████▏ | 4227/5155 [10:29:12<2:19:04,  8.99s/it] 82%|████████▏ | 4228/5155 [10:29:20<2:18:15,  8.95s/it] 82%|████████▏ | 4229/5155 [10:29:29<2:17:39,  8.92s/it] 82%|████████▏ | 4230/5155 [10:29:38<2:17:04,  8.89s/it]                                                        {'loss': '3.632e-06', 'grad_norm': '0.0001087', 'learning_rate': '1.902e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '149', 'tokens/total': 69324800, 'tokens/trainable': 21946726, 'epoch': '4.105'}
+ 82%|████████▏ | 4230/5155 [10:29:38<2:17:04,  8.89s/it] 82%|████████▏ | 4231/5155 [10:29:47<2:16:41,  8.88s/it] 82%|████████▏ | 4232/5155 [10:29:56<2:18:13,  8.99s/it] 82%|████████▏ | 4233/5155 [10:30:05<2:17:23,  8.94s/it] 82%|████████▏ | 4234/5155 [10:30:14<2:16:44,  8.91s/it] 82%|████████▏ | 4235/5155 [10:30:23<2:16:17,  8.89s/it] 82%|████████▏ | 4236/5155 [10:30:32<2:17:47,  9.00s/it] 82%|████████▏ | 4237/5155 [10:30:41<2:16:58,  8.95s/it] 82%|████████▏ | 4238/5155 [10:30:50<2:16:17,  8.92s/it] 82%|████████▏ | 4239/5155 [10:30:58<2:15:45,  8.89s/it] 82%|████████▏ | 4240/5155 [10:31:07<2:15:24,  8.88s/it]                                                        {'loss': '1.868e-06', 'grad_norm': '9.882e-06', 'learning_rate': '1.862e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '134.4', 'tokens/total': 69488640, 'tokens/trainable': 21998304, 'epoch': '4.114'}
+ 82%|████████▏ | 4240/5155 [10:31:07<2:15:24,  8.88s/it] 82%|████████▏ | 4241/5155 [10:31:17<2:17:03,  9.00s/it] 82%|████████▏ | 4242/5155 [10:31:25<2:16:13,  8.95s/it] 82%|████████▏ | 4243/5155 [10:31:34<2:15:24,  8.91s/it] 82%|████████▏ | 4244/5155 [10:31:43<2:14:56,  8.89s/it] 82%|████████▏ | 4245/5155 [10:31:52<2:16:32,  9.00s/it] 82%|████████▏ | 4246/5155 [10:32:01<2:15:41,  8.96s/it] 82%|████████▏ | 4247/5155 [10:32:10<2:14:55,  8.92s/it] 82%|████████▏ | 4248/5155 [10:32:19<2:14:27,  8.89s/it] 82%|████████▏ | 4249/5155 [10:32:28<2:14:06,  8.88s/it] 82%|████████▏ | 4250/5155 [10:32:37<2:15:42,  9.00s/it]                                                        {'loss': '6.731e-06', 'grad_norm': '9.463e-05', 'learning_rate': '1.823e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '132.5', 'tokens/total': 69652480, 'tokens/trainable': 22050082, 'epoch': '4.124'}
+ 82%|████████▏ | 4250/5155 [10:32:37<2:15:42,  9.00s/it] 82%|████████▏ | 4251/5155 [10:32:46<2:14:46,  8.95s/it] 82%|████████▏ | 4252/5155 [10:32:55<2:14:07,  8.91s/it] 83%|████████▎ | 4253/5155 [10:33:03<2:13:42,  8.89s/it] 83%|████████▎ | 4254/5155 [10:33:13<2:15:32,  9.03s/it] 83%|████████▎ | 4255/5155 [10:33:22<2:14:33,  8.97s/it] 83%|████████▎ | 4256/5155 [10:33:30<2:13:43,  8.92s/it] 83%|████████▎ | 4257/5155 [10:33:39<2:13:13,  8.90s/it] 83%|████████▎ | 4258/5155 [10:33:48<2:12:50,  8.89s/it] 83%|████████▎ | 4259/5155 [10:33:57<2:14:17,  8.99s/it] 83%|████████▎ | 4260/5155 [10:34:06<2:13:18,  8.94s/it]                                                        {'loss': '1.034e-05', 'grad_norm': '9.078e-06', 'learning_rate': '1.784e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '140', 'tokens/total': 69816320, 'tokens/trainable': 22102208, 'epoch': '4.134'}
+ 83%|████████▎ | 4260/5155 [10:34:06<2:13:18,  8.94s/it] 83%|████████▎ | 4261/5155 [10:34:15<2:12:44,  8.91s/it] 83%|████████▎ | 4262/5155 [10:34:24<2:12:15,  8.89s/it] 83%|████████▎ | 4263/5155 [10:34:33<2:13:35,  8.99s/it] 83%|████████▎ | 4264/5155 [10:34:42<2:12:41,  8.94s/it] 83%|████████▎ | 4265/5155 [10:34:51<2:12:07,  8.91s/it] 83%|████████▎ | 4266/5155 [10:35:00<2:11:38,  8.88s/it] 83%|████████▎ | 4267/5155 [10:35:08<2:11:17,  8.87s/it] 83%|████████▎ | 4268/5155 [10:35:18<2:12:49,  8.98s/it] 83%|████████▎ | 4269/5155 [10:35:27<2:12:02,  8.94s/it] 83%|████████▎ | 4270/5155 [10:35:35<2:11:25,  8.91s/it]                                                        {'loss': '1.079e-05', 'grad_norm': '0.001632', 'learning_rate': '1.746e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '144.2', 'tokens/total': 69980160, 'tokens/trainable': 22154322, 'epoch': '4.144'}
+ 83%|████████▎ | 4270/5155 [10:35:35<2:11:25,  8.91s/it] 83%|████████▎ | 4271/5155 [10:35:44<2:10:54,  8.89s/it] 83%|████████▎ | 4272/5155 [10:35:53<2:12:18,  8.99s/it] 83%|████████▎ | 4273/5155 [10:36:02<2:11:27,  8.94s/it] 83%|████████▎ | 4274/5155 [10:36:11<2:10:48,  8.91s/it] 83%|████████▎ | 4275/5155 [10:36:20<2:10:17,  8.88s/it] 83%|████████▎ | 4276/5155 [10:36:29<2:09:56,  8.87s/it] 83%|████████▎ | 4277/5155 [10:36:38<2:11:23,  8.98s/it] 83%|████████▎ | 4278/5155 [10:36:47<2:10:34,  8.93s/it] 83%|████████▎ | 4279/5155 [10:36:56<2:09:59,  8.90s/it] 83%|████████▎ | 4280/5155 [10:37:05<2:09:35,  8.89s/it]                                                        {'loss': '6.464e-06', 'grad_norm': '0.0002597', 'learning_rate': '1.708e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '137.3', 'tokens/total': 70144000, 'tokens/trainable': 22206768, 'epoch': '4.153'}
+ 83%|████████▎ | 4280/5155 [10:37:05<2:09:35,  8.89s/it] 83%|████████▎ | 4281/5155 [10:37:14<2:11:04,  9.00s/it] 83%|████████▎ | 4282/5155 [10:37:23<2:10:09,  8.95s/it] 83%|████████▎ | 4283/5155 [10:37:31<2:09:25,  8.91s/it] 83%|████████▎ | 4284/5155 [10:37:40<2:08:59,  8.89s/it] 83%|████████▎ | 4285/5155 [10:37:49<2:08:37,  8.87s/it] 83%|████████▎ | 4286/5155 [10:37:58<2:09:57,  8.97s/it] 83%|████████▎ | 4287/5155 [10:38:07<2:09:10,  8.93s/it] 83%|████████▎ | 4288/5155 [10:38:16<2:08:36,  8.90s/it] 83%|████████▎ | 4289/5155 [10:38:25<2:08:12,  8.88s/it] 83%|████████▎ | 4290/5155 [10:38:34<2:09:34,  8.99s/it]                                                        {'loss': '2.943e-06', 'grad_norm': '2.779e-05', 'learning_rate': '1.67e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '140.3', 'tokens/total': 70307840, 'tokens/trainable': 22259248, 'epoch': '4.163'}
+ 83%|████████▎ | 4290/5155 [10:38:34<2:09:34,  8.99s/it] 83%|████████▎ | 4291/5155 [10:38:43<2:08:49,  8.95s/it] 83%|████████▎ | 4292/5155 [10:38:52<2:08:17,  8.92s/it] 83%|████████▎ | 4293/5155 [10:39:01<2:07:46,  8.89s/it] 83%|████████▎ | 4294/5155 [10:39:09<2:07:20,  8.87s/it] 83%|████████▎ | 4295/5155 [10:39:19<2:08:45,  8.98s/it] 83%|████████▎ | 4296/5155 [10:39:27<2:07:58,  8.94s/it] 83%|████████▎ | 4297/5155 [10:39:36<2:07:21,  8.91s/it] 83%|████████▎ | 4298/5155 [10:39:45<2:06:56,  8.89s/it] 83%|████████▎ | 4299/5155 [10:39:54<2:08:12,  8.99s/it] 83%|████████▎ | 4300/5155 [10:40:03<2:07:28,  8.95s/it]                                                        {'loss': '6.614e-06', 'grad_norm': '0.001494', 'learning_rate': '1.633e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '157.1', 'tokens/total': 70471680, 'tokens/trainable': 22311106, 'epoch': '4.173'}
+ 83%|████████▎ | 4300/5155 [10:40:03<2:07:28,  8.95s/it] 83%|████████▎ | 4301/5155 [10:40:12<2:06:53,  8.91s/it] 83%|████████▎ | 4302/5155 [10:40:21<2:06:48,  8.92s/it] 83%|████████▎ | 4303/5155 [10:40:30<2:06:13,  8.89s/it] 83%|████████▎ | 4304/5155 [10:40:39<2:07:26,  8.99s/it] 84%|████████▎ | 4305/5155 [10:40:48<2:06:39,  8.94s/it] 84%|████████▎ | 4306/5155 [10:40:57<2:06:05,  8.91s/it] 84%|████████▎ | 4307/5155 [10:41:06<2:05:35,  8.89s/it] 84%|████████▎ | 4308/5155 [10:41:15<2:06:50,  8.99s/it] 84%|████████▎ | 4309/5155 [10:41:24<2:06:05,  8.94s/it] 84%|████████▎ | 4310/5155 [10:41:32<2:05:28,  8.91s/it]                                                        {'loss': '3.072e-06', 'grad_norm': '0.0001758', 'learning_rate': '1.596e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '157.3', 'tokens/total': 70635520, 'tokens/trainable': 22362860, 'epoch': '4.182'}
+ 84%|████████▎ | 4310/5155 [10:41:32<2:05:28,  8.91s/it] 84%|████████▎ | 4311/5155 [10:41:41<2:04:57,  8.88s/it] 84%|████████▎ | 4312/5155 [10:41:50<2:04:34,  8.87s/it] 84%|████████▎ | 4313/5155 [10:41:59<2:06:05,  8.98s/it] 84%|████████▎ | 4314/5155 [10:42:08<2:05:20,  8.94s/it] 84%|████████▎ | 4315/5155 [10:42:17<2:04:45,  8.91s/it] 84%|████████▎ | 4316/5155 [10:42:26<2:04:10,  8.88s/it] 84%|████████▎ | 4317/5155 [10:42:35<2:05:39,  9.00s/it] 84%|████████▍ | 4318/5155 [10:42:44<2:04:52,  8.95s/it] 84%|████████▍ | 4319/5155 [10:42:53<2:04:15,  8.92s/it] 84%|████████▍ | 4320/5155 [10:43:02<2:03:48,  8.90s/it]                                                        {'loss': '7.723e-06', 'grad_norm': '0.001898', 'learning_rate': '1.56e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '151.4', 'tokens/total': 70799360, 'tokens/trainable': 22414604, 'epoch': '4.192'}
+ 84%|████████▍ | 4320/5155 [10:43:02<2:03:48,  8.90s/it] 84%|████████▍ | 4321/5155 [10:43:10<2:03:17,  8.87s/it] 84%|████████▍ | 4322/5155 [10:43:20<2:04:40,  8.98s/it] 84%|████████▍ | 4323/5155 [10:43:29<2:03:59,  8.94s/it] 84%|████████▍ | 4324/5155 [10:43:37<2:03:29,  8.92s/it] 84%|████████▍ | 4325/5155 [10:43:46<2:02:58,  8.89s/it] 84%|████████▍ | 4326/5155 [10:43:55<2:04:13,  8.99s/it] 84%|████████▍ | 4327/5155 [10:44:04<2:03:26,  8.94s/it] 84%|████████▍ | 4328/5155 [10:44:13<2:02:49,  8.91s/it] 84%|████████▍ | 4329/5155 [10:44:22<2:02:12,  8.88s/it] 84%|████████▍ | 4330/5155 [10:44:31<2:01:49,  8.86s/it]                                                        {'loss': '1.437e-05', 'grad_norm': '3.741e-06', 'learning_rate': '1.524e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '141.6', 'tokens/total': 70963200, 'tokens/trainable': 22465980, 'epoch': '4.202'}
+ 84%|████████▍ | 4330/5155 [10:44:31<2:01:49,  8.86s/it] 84%|████████▍ | 4331/5155 [10:44:40<2:03:11,  8.97s/it] 84%|████████▍ | 4332/5155 [10:44:49<2:02:29,  8.93s/it] 84%|████████▍ | 4333/5155 [10:44:58<2:01:54,  8.90s/it] 84%|████████▍ | 4334/5155 [10:45:06<2:01:25,  8.87s/it] 84%|████████▍ | 4335/5155 [10:45:16<2:02:43,  8.98s/it] 84%|████████▍ | 4336/5155 [10:45:24<2:01:59,  8.94s/it] 84%|████████▍ | 4337/5155 [10:45:33<2:01:26,  8.91s/it] 84%|████████▍ | 4338/5155 [10:45:42<2:00:51,  8.88s/it] 84%|████████▍ | 4339/5155 [10:45:51<2:02:07,  8.98s/it] 84%|████████▍ | 4340/5155 [10:46:00<2:01:21,  8.93s/it]                                                        {'loss': '2.285e-05', 'grad_norm': '0.0004516', 'learning_rate': '1.488e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '152.2', 'tokens/total': 71127040, 'tokens/trainable': 22518456, 'epoch': '4.211'}
+ 84%|████████▍ | 4340/5155 [10:46:00<2:01:21,  8.93s/it] 84%|████████▍ | 4341/5155 [10:46:09<2:00:48,  8.90s/it] 84%|████████▍ | 4342/5155 [10:46:18<2:00:21,  8.88s/it] 84%|████████▍ | 4343/5155 [10:46:27<2:00:00,  8.87s/it] 84%|████████▍ | 4344/5155 [10:46:36<2:01:19,  8.98s/it] 84%|████████▍ | 4345/5155 [10:46:45<2:00:32,  8.93s/it] 84%|████████▍ | 4346/5155 [10:46:54<1:59:59,  8.90s/it] 84%|████████▍ | 4347/5155 [10:47:02<1:59:34,  8.88s/it] 84%|████████▍ | 4348/5155 [10:47:12<2:00:48,  8.98s/it] 84%|████████▍ | 4349/5155 [10:47:20<2:00:00,  8.93s/it] 84%|████████▍ | 4350/5155 [10:47:29<1:59:23,  8.90s/it]                                                        {'loss': '2.356e-06', 'grad_norm': '8.357e-05', 'learning_rate': '1.452e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '139.9', 'tokens/total': 71290880, 'tokens/trainable': 22569904, 'epoch': '4.221'}
+ 84%|████████▍ | 4350/5155 [10:47:29<1:59:23,  8.90s/it] 84%|████████▍ | 4351/5155 [10:47:38<1:58:59,  8.88s/it] 84%|████████▍ | 4352/5155 [10:47:47<1:58:38,  8.86s/it] 84%|████████▍ | 4353/5155 [10:47:56<1:59:59,  8.98s/it] 84%|████████▍ | 4354/5155 [10:48:05<1:59:11,  8.93s/it] 84%|████████▍ | 4355/5155 [10:48:14<1:58:39,  8.90s/it] 85%|████████▍ | 4356/5155 [10:48:23<1:58:15,  8.88s/it] 85%|████████▍ | 4357/5155 [10:48:32<1:59:29,  8.98s/it] 85%|████████▍ | 4358/5155 [10:48:41<1:58:35,  8.93s/it] 85%|████████▍ | 4359/5155 [10:48:49<1:58:02,  8.90s/it] 85%|████████▍ | 4360/5155 [10:48:58<1:57:37,  8.88s/it]                                                        {'loss': '1.419e-05', 'grad_norm': '0.000122', 'learning_rate': '1.417e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '153.3', 'tokens/total': 71454720, 'tokens/trainable': 22621704, 'epoch': '4.231'}
+ 85%|████████▍ | 4360/5155 [10:48:58<1:57:37,  8.88s/it] 85%|████████▍ | 4361/5155 [10:49:07<1:57:18,  8.86s/it] 85%|████████▍ | 4362/5155 [10:49:16<1:58:29,  8.97s/it] 85%|████████▍ | 4363/5155 [10:49:25<1:57:50,  8.93s/it] 85%|████████▍ | 4364/5155 [10:49:34<1:57:20,  8.90s/it] 85%|████████▍ | 4365/5155 [10:49:43<1:56:56,  8.88s/it] 85%|████████▍ | 4366/5155 [10:49:52<1:58:06,  8.98s/it] 85%|████████▍ | 4367/5155 [10:50:01<1:57:19,  8.93s/it] 85%|████████▍ | 4368/5155 [10:50:10<1:56:48,  8.91s/it] 85%|████████▍ | 4369/5155 [10:50:19<1:56:20,  8.88s/it] 85%|████████▍ | 4370/5155 [10:50:27<1:55:57,  8.86s/it]                                                        {'loss': '4.187e-06', 'grad_norm': '0.001265', 'learning_rate': '1.383e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '143.2', 'tokens/total': 71618560, 'tokens/trainable': 22673684, 'epoch': '4.24'}
+ 85%|████████▍ | 4370/5155 [10:50:27<1:55:57,  8.86s/it] 85%|████████▍ | 4371/5155 [10:50:37<1:57:10,  8.97s/it] 85%|████████▍ | 4372/5155 [10:50:45<1:56:29,  8.93s/it] 85%|████████▍ | 4373/5155 [10:50:54<1:55:59,  8.90s/it] 85%|████████▍ | 4374/5155 [10:51:03<1:55:35,  8.88s/it] 85%|████████▍ | 4375/5155 [10:51:12<1:56:38,  8.97s/it] 85%|████████▍ | 4376/5155 [10:51:21<1:55:57,  8.93s/it] 85%|████████▍ | 4377/5155 [10:51:30<1:55:22,  8.90s/it] 85%|████████▍ | 4378/5155 [10:51:39<1:55:00,  8.88s/it] 85%|████████▍ | 4379/5155 [10:51:48<1:54:33,  8.86s/it] 85%|████████▍ | 4380/5155 [10:51:57<1:55:49,  8.97s/it]                                                        {'loss': '7.15e-06', 'grad_norm': '0.002904', 'learning_rate': '1.349e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '136.3', 'tokens/total': 71782400, 'tokens/trainable': 22725608, 'epoch': '4.25'}
+ 85%|████████▍ | 4380/5155 [10:51:57<1:55:49,  8.97s/it] 85%|████████▍ | 4381/5155 [10:52:06<1:55:10,  8.93s/it] 85%|████████▌ | 4382/5155 [10:52:14<1:54:40,  8.90s/it] 85%|████████▌ | 4383/5155 [10:52:23<1:54:10,  8.87s/it] 85%|████████▌ | 4384/5155 [10:52:32<1:55:17,  8.97s/it] 85%|████████▌ | 4385/5155 [10:52:41<1:54:35,  8.93s/it] 85%|████████▌ | 4386/5155 [10:52:50<1:54:05,  8.90s/it] 85%|████████▌ | 4387/5155 [10:52:59<1:53:33,  8.87s/it] 85%|████████▌ | 4388/5155 [10:53:08<1:53:15,  8.86s/it] 85%|████████▌ | 4389/5155 [10:53:17<1:54:32,  8.97s/it] 85%|████████▌ | 4390/5155 [10:53:26<1:53:52,  8.93s/it]                                                        {'loss': '2.775e-06', 'grad_norm': '0.001096', 'learning_rate': '1.315e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '151', 'tokens/total': 71946240, 'tokens/trainable': 22778188, 'epoch': '4.26'}
+ 85%|████████▌ | 4390/5155 [10:53:26<1:53:52,  8.93s/it] 85%|████████▌ | 4391/5155 [10:53:35<1:53:17,  8.90s/it] 85%|████████▌ | 4392/5155 [10:53:44<1:52:51,  8.88s/it] 85%|████████▌ | 4393/5155 [10:53:53<1:54:03,  8.98s/it] 85%|████████▌ | 4394/5155 [10:54:02<1:53:22,  8.94s/it] 85%|████████▌ | 4395/5155 [10:54:10<1:52:53,  8.91s/it] 85%|████████▌ | 4396/5155 [10:54:19<1:52:22,  8.88s/it] 85%|████████▌ | 4397/5155 [10:54:28<1:52:01,  8.87s/it] 85%|████████▌ | 4398/5155 [10:54:37<1:53:58,  9.03s/it] 85%|████████▌ | 4399/5155 [10:54:46<1:53:04,  8.97s/it] 85%|████████▌ | 4400/5155 [10:54:55<1:52:21,  8.93s/it]                                                        {'loss': '6.647e-06', 'grad_norm': '1.391e-05', 'learning_rate': '1.282e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '143', 'tokens/total': 72110080, 'tokens/trainable': 22829992, 'epoch': '4.27'}
+ 85%|████████▌ | 4400/5155 [10:54:55<1:52:21,  8.93s/it] 85%|████████▌ | 4401/5155 [10:55:04<1:51:49,  8.90s/it] 85%|████████▌ | 4402/5155 [10:55:13<1:52:56,  9.00s/it] 85%|████████▌ | 4403/5155 [10:55:22<1:52:09,  8.95s/it] 85%|████████▌ | 4404/5155 [10:55:31<1:51:37,  8.92s/it] 85%|████████▌ | 4405/5155 [10:55:40<1:50:59,  8.88s/it] 85%|████████▌ | 4406/5155 [10:55:49<1:50:40,  8.87s/it] 85%|████████▌ | 4407/5155 [10:55:58<1:51:53,  8.98s/it] 86%|████████▌ | 4408/5155 [10:56:07<1:51:12,  8.93s/it] 86%|████████▌ | 4409/5155 [10:56:15<1:50:35,  8.89s/it] 86%|████████▌ | 4410/5155 [10:56:24<1:50:12,  8.88s/it]                                                        {'loss': '1.449e-06', 'grad_norm': '0.0006153', 'learning_rate': '1.249e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '139.7', 'tokens/total': 72273920, 'tokens/trainable': 22881432, 'epoch': '4.279'}
+ 86%|████████▌ | 4410/5155 [10:56:24<1:50:12,  8.88s/it] 86%|████████▌ | 4411/5155 [10:56:33<1:51:18,  8.98s/it] 86%|████████▌ | 4412/5155 [10:56:42<1:50:38,  8.93s/it] 86%|████████▌ | 4413/5155 [10:56:51<1:50:03,  8.90s/it] 86%|████████▌ | 4414/5155 [10:57:00<1:49:43,  8.88s/it] 86%|████████▌ | 4415/5155 [10:57:09<1:49:25,  8.87s/it] 86%|████████▌ | 4416/5155 [10:57:18<1:50:35,  8.98s/it] 86%|████████▌ | 4417/5155 [10:57:27<1:49:49,  8.93s/it] 86%|████████▌ | 4418/5155 [10:57:36<1:49:19,  8.90s/it] 86%|████████▌ | 4419/5155 [10:57:44<1:48:56,  8.88s/it] 86%|████████▌ | 4420/5155 [10:57:54<1:50:05,  8.99s/it]                                                        {'loss': '6.863e-06', 'grad_norm': '0.0002773', 'learning_rate': '1.216e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '131.2', 'tokens/total': 72437760, 'tokens/trainable': 22933108, 'epoch': '4.289'}
+ 86%|████████▌ | 4420/5155 [10:57:54<1:50:05,  8.99s/it] 86%|████████▌ | 4421/5155 [10:58:03<1:49:19,  8.94s/it] 86%|████████▌ | 4422/5155 [10:58:11<1:48:43,  8.90s/it] 86%|████████▌ | 4423/5155 [10:58:20<1:48:19,  8.88s/it] 86%|████████▌ | 4424/5155 [10:58:29<1:47:54,  8.86s/it] 86%|████████▌ | 4425/5155 [10:58:38<1:49:46,  9.02s/it] 86%|████████▌ | 4426/5155 [10:58:47<1:48:50,  8.96s/it] 86%|████████▌ | 4427/5155 [10:58:56<1:48:12,  8.92s/it] 86%|████████▌ | 4428/5155 [10:59:05<1:47:47,  8.90s/it] 86%|���███████▌ | 4429/5155 [10:59:14<1:49:10,  9.02s/it] 86%|████████▌ | 4430/5155 [10:59:23<1:48:18,  8.96s/it]                                                        {'loss': '1.937e-06', 'grad_norm': '0.000202', 'learning_rate': '1.184e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '157', 'tokens/total': 72601600, 'tokens/trainable': 22985220, 'epoch': '4.299'}
+ 86%|████████▌ | 4430/5155 [10:59:23<1:48:18,  8.96s/it] 86%|████████▌ | 4431/5155 [10:59:32<1:47:37,  8.92s/it] 86%|████████▌ | 4432/5155 [10:59:41<1:47:10,  8.89s/it] 86%|████████▌ | 4433/5155 [10:59:50<1:46:48,  8.88s/it] 86%|████████▌ | 4434/5155 [10:59:59<1:48:00,  8.99s/it] 86%|████████▌ | 4435/5155 [11:00:08<1:47:14,  8.94s/it] 86%|████████▌ | 4436/5155 [11:00:16<1:46:39,  8.90s/it] 86%|████████▌ | 4437/5155 [11:00:25<1:46:19,  8.89s/it] 86%|████████▌ | 4438/5155 [11:00:34<1:47:25,  8.99s/it] 86%|████████▌ | 4439/5155 [11:00:43<1:46:56,  8.96s/it] 86%|████████▌ | 4440/5155 [11:00:52<1:46:12,  8.91s/it]                                                        {'loss': '5.291e-06', 'grad_norm': '0.002723', 'learning_rate': '1.152e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '149.4', 'tokens/total': 72765440, 'tokens/trainable': 23036842, 'epoch': '4.308'}
+ 86%|████████▌ | 4440/5155 [11:00:52<1:46:12,  8.91s/it] 86%|████████▌ | 4441/5155 [11:01:01<1:45:48,  8.89s/it] 86%|████████▌ | 4442/5155 [11:01:10<1:45:27,  8.87s/it] 86%|████████▌ | 4443/5155 [11:01:19<1:46:35,  8.98s/it] 86%|████████▌ | 4444/5155 [11:01:28<1:45:56,  8.94s/it] 86%|████████▌ | 4445/5155 [11:01:37<1:45:17,  8.90s/it] 86%|████████▌ | 4446/5155 [11:01:46<1:44:55,  8.88s/it] 86%|████████▋ | 4447/5155 [11:01:55<1:46:00,  8.98s/it] 86%|████████▋ | 4448/5155 [11:02:04<1:45:19,  8.94s/it] 86%|████████▋ | 4449/5155 [11:02:12<1:44:47,  8.91s/it] 86%|████████▋ | 4450/5155 [11:02:21<1:44:19,  8.88s/it]                                                        {'loss': '9.163e-07', 'grad_norm': '0.0003084', 'learning_rate': '1.121e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '145.5', 'tokens/total': 72929280, 'tokens/trainable': 23088908, 'epoch': '4.318'}
+ 86%|████████▋ | 4450/5155 [11:02:21<1:44:19,  8.88s/it] 86%|████████▋ | 4451/5155 [11:02:30<1:44:02,  8.87s/it] 86%|████████▋ | 4452/5155 [11:02:39<1:45:11,  8.98s/it] 86%|████████▋ | 4453/5155 [11:02:48<1:44:32,  8.94s/it] 86%|████████▋ | 4454/5155 [11:02:57<1:44:00,  8.90s/it] 86%|████████▋ | 4455/5155 [11:03:06<1:43:39,  8.89s/it] 86%|████████▋ | 4456/5155 [11:03:15<1:44:43,  8.99s/it] 86%|████████▋ | 4457/5155 [11:03:24<1:44:03,  8.94s/it] 86%|████████▋ | 4458/5155 [11:03:33<1:43:25,  8.90s/it] 86%|████████▋ | 4459/5155 [11:03:42<1:43:02,  8.88s/it] 87%|████████▋ | 4460/5155 [11:03:50<1:42:43,  8.87s/it]                                                        {'loss': '8.464e-07', 'grad_norm': '9.432e-06', 'learning_rate': '1.09e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '140.5', 'tokens/total': 73093120, 'tokens/trainable': 23141112, 'epoch': '4.328'}
+ 87%|████████▋ | 4460/5155 [11:03:50<1:42:43,  8.87s/it] 87%|████████▋ | 4461/5155 [11:04:00<1:43:50,  8.98s/it] 87%|████████▋ | 4462/5155 [11:04:08<1:43:06,  8.93s/it] 87%|████████▋ | 4463/5155 [11:04:17<1:42:33,  8.89s/it] 87%|████████▋ | 4464/5155 [11:04:26<1:42:12,  8.88s/it] 87%|████████▋ | 4465/5155 [11:04:35<1:43:18,  8.98s/it] 87%|████████▋ | 4466/5155 [11:04:44<1:42:39,  8.94s/it] 87%|████████▋ | 4467/5155 [11:04:53<1:42:04,  8.90s/it] 87%|████████▋ | 4468/5155 [11:05:02<1:41:42,  8.88s/it] 87%|████████▋ | 4469/5155 [11:05:11<1:41:23,  8.87s/it] 87%|████████▋ | 4470/5155 [11:05:20<1:42:24,  8.97s/it]                                                        {'loss': '4.27e-06', 'grad_norm': '9.944e-05', 'learning_rate': '1.059e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '156.2', 'tokens/total': 73256960, 'tokens/trainable': 23193134, 'epoch': '4.337'}
+ 87%|████████▋ | 4470/5155 [11:05:20<1:42:24,  8.97s/it] 87%|████████▋ | 4471/5155 [11:05:29<1:41:43,  8.92s/it] 87%|████████▋ | 4472/5155 [11:05:37<1:41:18,  8.90s/it] 87%|████████▋ | 4473/5155 [11:05:46<1:40:56,  8.88s/it] 87%|████████▋ | 4474/5155 [11:05:56<1:41:57,  8.98s/it] 87%|████████▋ | 4475/5155 [11:06:04<1:41:12,  8.93s/it] 87%|████████▋ | 4476/5155 [11:06:13<1:40:43,  8.90s/it] 87%|████████▋ | 4477/5155 [11:06:22<1:40:20,  8.88s/it] 87%|████████▋ | 4478/5155 [11:06:31<1:40:01,  8.87s/it] 87%|████████▋ | 4479/5155 [11:06:40<1:40:59,  8.96s/it] 87%|████████▋ | 4480/5155 [11:06:49<1:40:23,  8.92s/it]                                                        {'loss': '1.878e-06', 'grad_norm': '0.000258', 'learning_rate': '1.029e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '147.3', 'tokens/total': 73420800, 'tokens/trainable': 23244916, 'epoch': '4.347'}
+ 87%|████████▋ | 4480/5155 [11:06:49<1:40:23,  8.92s/it] 87%|████████▋ | 4481/5155 [11:06:58<1:39:54,  8.89s/it] 87%|████████▋ | 4482/5155 [11:07:07<1:39:34,  8.88s/it] 87%|████████▋ | 4483/5155 [11:07:16<1:40:30,  8.97s/it] 87%|████████▋ | 4484/5155 [11:07:25<1:39:53,  8.93s/it] 87%|████████▋ | 4485/5155 [11:07:33<1:39:25,  8.90s/it] 87%|████████▋ | 4486/5155 [11:07:42<1:39:02,  8.88s/it] 87%|████████▋ | 4487/5155 [11:07:51<1:40:00,  8.98s/it] 87%|████████▋ | 4488/5155 [11:08:00<1:39:22,  8.94s/it] 87%|████████▋ | 4489/5155 [11:08:09<1:38:53,  8.91s/it] 87%|████████▋ | 4490/5155 [11:08:18<1:38:33,  8.89s/it]                                                        {'loss': '5.422e-06', 'grad_norm': '1.429e-05', 'learning_rate': '9.996e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '149.7', 'tokens/total': 73584640, 'tokens/trainable': 23296540, 'epoch': '4.357'}
+ 87%|████████▋ | 4490/5155 [11:08:18<1:38:33,  8.89s/it] 87%|████████▋ | 4491/5155 [11:08:27<1:38:13,  8.88s/it] 87%|████████▋ | 4492/5155 [11:08:36<1:39:10,  8.97s/it] 87%|████████▋ | 4493/5155 [11:08:45<1:38:34,  8.93s/it] 87%|████████▋ | 4494/5155 [11:08:54<1:38:04,  8.90s/it] 87%|████████▋ | 4495/5155 [11:09:03<1:37:38,  8.88s/it] 87%|████████▋ | 4496/5155 [11:09:11<1:37:21,  8.86s/it] 87%|████████▋ | 4497/5155 [11:09:21<1:38:23,  8.97s/it] 87%|████████▋ | 4498/5155 [11:09:29<1:37:45,  8.93s/it] 87%|████████▋ | 4499/5155 [11:09:38<1:37:17,  8.90s/it] 87%|████████▋ | 4500/5155 [11:09:47<1:36:56,  8.88s/it]                                                        {'loss': '7.495e-06', 'grad_norm': '3.547e-06', 'learning_rate': '9.703e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '139.2', 'tokens/total': 73748480, 'tokens/trainable': 23347902, 'epoch': '4.367'}
+ 87%|████████▋ | 4500/5155 [11:09:47<1:36:56,  8.88s/it] 87%|████████▋ | 4501/5155 [11:09:56<1:38:25,  9.03s/it] 87%|████████▋ | 4502/5155 [11:10:05<1:37:37,  8.97s/it] 87%|████████▋ | 4503/5155 [11:10:14<1:37:01,  8.93s/it] 87%|████████▋ | 4504/5155 [11:10:23<1:36:34,  8.90s/it] 87%|████████▋ | 4505/5155 [11:10:32<1:36:10,  8.88s/it] 87%|████████▋ | 4506/5155 [11:10:41<1:37:18,  9.00s/it] 87%|████████▋ | 4507/5155 [11:10:50<1:36:36,  8.94s/it] 87%|████████▋ | 4508/5155 [11:10:59<1:36:03,  8.91s/it] 87%|████████▋ | 4509/5155 [11:11:08<1:35:39,  8.88s/it] 87%|████████▋ | 4510/5155 [11:11:17<1:36:35,  8.99s/it]                                                        {'loss': '2.405e-06', 'grad_norm': '0.0007906', 'learning_rate': '9.414e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '145.1', 'tokens/total': 73912320, 'tokens/trainable': 23399524, 'epoch': '4.376'}
+ 87%|████████▋ | 4510/5155 [11:11:17<1:36:35,  8.99s/it] 88%|████████▊ | 4511/5155 [11:11:26<1:35:55,  8.94s/it] 88%|████████▊ | 4512/5155 [11:11:34<1:35:26,  8.91s/it] 88%|████████▊ | 4513/5155 [11:11:43<1:35:03,  8.88s/it] 88%|████████▊ | 4514/5155 [11:11:52<1:36:01,  8.99s/it] 88%|████████▊ | 4515/5155 [11:12:01<1:35:20,  8.94s/it] 88%|████████▊ | 4516/5155 [11:12:10<1:34:53,  8.91s/it] 88%|████████▊ | 4517/5155 [11:12:19<1:34:29,  8.89s/it] 88%|████████▊ | 4518/5155 [11:12:28<1:34:09,  8.87s/it] 88%|████████▊ | 4519/5155 [11:12:37<1:35:08,  8.98s/it] 88%|████████▊ | 4520/5155 [11:12:46<1:34:34,  8.94s/it]                                                        {'loss': '2.476e-06', 'grad_norm': '0.0001368', 'learning_rate': '9.129e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '147.6', 'tokens/total': 74076160, 'tokens/trainable': 23452004, 'epoch': '4.386'}
+ 88%|████████▊ | 4520/5155 [11:12:46<1:34:34,  8.94s/it] 88%|████████▊ | 4521/5155 [11:12:55<1:34:04,  8.90s/it] 88%|████████▊ | 4522/5155 [11:13:04<1:33:42,  8.88s/it] 88%|████████▊ | 4523/5155 [11:13:12<1:33:24,  8.87s/it] 88%|████████▊ | 4524/5155 [11:13:22<1:34:19,  8.97s/it] 88%|████████▊ | 4525/5155 [11:13:30<1:33:44,  8.93s/it] 88%|████████▊ | 4526/5155 [11:13:39<1:33:17,  8.90s/it] 88%|████████▊ | 4527/5155 [11:13:48<1:32:56,  8.88s/it] 88%|████████▊ | 4528/5155 [11:13:57<1:33:49,  8.98s/it] 88%|████████▊ | 4529/5155 [11:14:06<1:33:10,  8.93s/it] 88%|████████▊ | 4530/5155 [11:14:15<1:32:45,  8.91s/it]                                                        {'loss': '8.393e-06', 'grad_norm': '2.304e-05', 'learning_rate': '8.849e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '140.8', 'tokens/total': 74240000, 'tokens/trainable': 23503808, 'epoch': '4.396'}
+ 88%|████████▊ | 4530/5155 [11:14:15<1:32:45,  8.91s/it] 88%|████████▊ | 4531/5155 [11:14:24<1:32:30,  8.89s/it] 88%|████████▊ | 4532/5155 [11:14:33<1:32:20,  8.89s/it] 88%|████████▊ | 4533/5155 [11:14:42<1:33:24,  9.01s/it] 88%|████████▊ | 4534/5155 [11:14:51<1:32:51,  8.97s/it] 88%|████████▊ | 4535/5155 [11:15:00<1:32:23,  8.94s/it] 88%|████████▊ | 4536/5155 [11:15:09<1:32:04,  8.93s/it] 88%|████████▊ | 4537/5155 [11:15:18<1:33:18,  9.06s/it] 88%|████████▊ | 4538/5155 [11:15:27<1:32:24,  8.99s/it] 88%|████████▊ | 4539/5155 [11:15:36<1:31:47,  8.94s/it] 88%|████████▊ | 4540/5155 [11:15:45<1:31:27,  8.92s/it]                                                        {'loss': '1.024e-05', 'grad_norm': '0.002597', 'learning_rate': '8.572e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '144.2', 'tokens/total': 74403840, 'tokens/trainable': 23555292, 'epoch': '4.405'}
+ 88%|████████▊ | 4540/5155 [11:15:45<1:31:27,  8.92s/it] 88%|████████▊ | 4541/5155 [11:15:53<1:31:09,  8.91s/it] 88%|████████▊ | 4542/5155 [11:16:03<1:32:10,  9.02s/it] 88%|████████▊ | 4543/5155 [11:16:12<1:31:28,  8.97s/it] 88%|████████▊ | 4544/5155 [11:16:20<1:30:59,  8.94s/it] 88%|████████▊ | 4545/5155 [11:16:29<1:30:33,  8.91s/it] 88%|████████▊ | 4546/5155 [11:16:38<1:31:23,  9.00s/it] 88%|████████▊ | 4547/5155 [11:16:47<1:30:42,  8.95s/it] 88%|████████▊ | 4548/5155 [11:16:56<1:30:04,  8.90s/it] 88%|████████▊ | 4549/5155 [11:17:05<1:29:43,  8.88s/it] 88%|████████▊ | 4550/5155 [11:17:14<1:29:27,  8.87s/it]                                                        {'loss': '6.201e-06', 'grad_norm': '4.876e-06', 'learning_rate': '8.3e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '144.3', 'tokens/total': 74567680, 'tokens/trainable': 23607124, 'epoch': '4.415'}
+ 88%|████████▊ | 4550/5155 [11:17:14<1:29:27,  8.87s/it] 88%|████████▊ | 4551/5155 [11:17:23<1:30:23,  8.98s/it] 88%|████████▊ | 4552/5155 [11:17:32<1:29:44,  8.93s/it] 88%|████████▊ | 4553/5155 [11:17:41<1:29:19,  8.90s/it] 88%|████████▊ | 4554/5155 [11:17:49<1:28:58,  8.88s/it] 88%|████████▊ | 4555/5155 [11:17:59<1:29:52,  8.99s/it] 88%|████████▊ | 4556/5155 [11:18:07<1:29:06,  8.93s/it] 88%|████████▊ | 4557/5155 [11:18:16<1:28:42,  8.90s/it] 88%|████████▊ | 4558/5155 [11:18:25<1:28:22,  8.88s/it] 88%|████████▊ | 4559/5155 [11:18:34<1:29:18,  8.99s/it] 88%|████████▊ | 4560/5155 [11:18:43<1:28:36,  8.94s/it]                                                        {'loss': '3.676e-06', 'grad_norm': '9.044e-05', 'learning_rate': '8.032e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '150.2', 'tokens/total': 74731520, 'tokens/trainable': 23658754, 'epoch': '4.425'}
+ 88%|████████▊ | 4560/5155 [11:18:43<1:28:36,  8.94s/it] 88%|████████▊ | 4561/5155 [11:18:52<1:28:08,  8.90s/it] 88%|████████▊ | 4562/5155 [11:19:01<1:27:48,  8.88s/it] 89%|████████▊ | 4563/5155 [11:19:10<1:27:32,  8.87s/it] 89%|████████▊ | 4564/5155 [11:19:19<1:28:21,  8.97s/it] 89%|████████▊ | 4565/5155 [11:19:28<1:27:48,  8.93s/it] 89%|████████▊ | 4566/5155 [11:19:37<1:27:24,  8.90s/it] 89%|████████▊ | 4567/5155 [11:19:45<1:27:03,  8.88s/it] 89%|████████▊ | 4568/5155 [11:19:55<1:27:56,  8.99s/it] 89%|████████▊ | 4569/5155 [11:20:03<1:27:14,  8.93s/it] 89%|████████▊ | 4570/5155 [11:20:12<1:26:42,  8.89s/it]                                                        {'loss': '1.709e-06', 'grad_norm': '0.0001944', 'learning_rate': '7.768e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '144.3', 'tokens/total': 74895360, 'tokens/trainable': 23710178, 'epoch': '4.434'}
+ 89%|████████▊ | 4570/5155 [11:20:12<1:26:42,  8.89s/it] 89%|████████▊ | 4571/5155 [11:20:21<1:26:25,  8.88s/it] 89%|████████▊ | 4572/5155 [11:20:30<1:26:08,  8.87s/it] 89%|████████▊ | 4573/5155 [11:20:39<1:27:01,  8.97s/it] 89%|████████▊ | 4574/5155 [11:20:48<1:26:23,  8.92s/it] 89%|████████▊ | 4575/5155 [11:20:57<1:25:57,  8.89s/it] 89%|████████▉ | 4576/5155 [11:21:06<1:25:38,  8.87s/it] 89%|████████▉ | 4577/5155 [11:21:15<1:26:29,  8.98s/it] 89%|████████▉ | 4578/5155 [11:21:24<1:25:49,  8.92s/it] 89%|████████▉ | 4579/5155 [11:21:32<1:25:21,  8.89s/it] 89%|████████▉ | 4580/5155 [11:21:41<1:25:00,  8.87s/it]                                                        {'loss': '1.686e-06', 'grad_norm': '0.0001295', 'learning_rate': '7.509e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '140.2', 'tokens/total': 75059200, 'tokens/trainable': 23761644, 'epoch': '4.444'}
+ 89%|████████▉ | 4580/5155 [11:21:41<1:25:00,  8.87s/it] 89%|████████▉ | 4581/5155 [11:21:50<1:24:48,  8.87s/it] 89%|████████▉ | 4582/5155 [11:21:59<1:25:45,  8.98s/it] 89%|████████▉ | 4583/5155 [11:22:08<1:25:11,  8.94s/it] 89%|████████▉ | 4584/5155 [11:22:17<1:24:43,  8.90s/it] 89%|████████▉ | 4585/5155 [11:22:26<1:24:22,  8.88s/it] 89%|████████▉ | 4586/5155 [11:22:35<1:25:13,  8.99s/it] 89%|████████▉ | 4587/5155 [11:22:44<1:24:34,  8.93s/it] 89%|████████▉ | 4588/5155 [11:22:53<1:24:10,  8.91s/it] 89%|████████▉ | 4589/5155 [11:23:02<1:23:48,  8.88s/it] 89%|████████▉ | 4590/5155 [11:23:10<1:23:30,  8.87s/it]                                                        {'loss': '3.255e-06', 'grad_norm': '0.001977', 'learning_rate': '7.253e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '142.1', 'tokens/total': 75223040, 'tokens/trainable': 23813236, 'epoch': '4.454'}
+ 89%|████████▉ | 4590/5155 [11:23:10<1:23:30,  8.87s/it] 89%|████████▉ | 4591/5155 [11:23:20<1:24:19,  8.97s/it] 89%|████████▉ | 4592/5155 [11:23:28<1:23:46,  8.93s/it] 89%|████████▉ | 4593/5155 [11:23:37<1:23:17,  8.89s/it] 89%|████████▉ | 4594/5155 [11:23:46<1:22:58,  8.88s/it] 89%|████████▉ | 4595/5155 [11:23:55<1:23:46,  8.98s/it] 89%|████████▉ | 4596/5155 [11:24:04<1:23:14,  8.94s/it] 89%|████████▉ | 4597/5155 [11:24:13<1:22:48,  8.90s/it] 89%|████████▉ | 4598/5155 [11:24:22<1:22:26,  8.88s/it] 89%|██���█████▉ | 4599/5155 [11:24:31<1:22:05,  8.86s/it] 89%|████████▉ | 4600/5155 [11:24:40<1:22:59,  8.97s/it]                                                        {'loss': '1.004e-05', 'grad_norm': '7.697e-05', 'learning_rate': '7.002e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '157', 'tokens/total': 75386880, 'tokens/trainable': 23865114, 'epoch': '4.464'}
+ 89%|████████▉ | 4600/5155 [11:24:40<1:22:59,  8.97s/it] 89%|████████▉ | 4601/5155 [11:24:49<1:22:28,  8.93s/it] 89%|████████▉ | 4602/5155 [11:24:58<1:22:01,  8.90s/it] 89%|████████▉ | 4603/5155 [11:25:06<1:21:51,  8.90s/it] 89%|████████▉ | 4604/5155 [11:25:15<1:21:32,  8.88s/it] 89%|████████▉ | 4605/5155 [11:25:24<1:22:17,  8.98s/it] 89%|████████▉ | 4606/5155 [11:25:33<1:21:45,  8.93s/it] 89%|████████▉ | 4607/5155 [11:25:42<1:21:14,  8.90s/it] 89%|████████▉ | 4608/5155 [11:25:51<1:20:55,  8.88s/it] 89%|████████▉ | 4609/5155 [11:26:00<1:21:44,  8.98s/it] 89%|████████▉ | 4610/5155 [11:26:09<1:21:11,  8.94s/it]                                                        {'loss': '1.21e-06', 'grad_norm': '1.022e-05', 'learning_rate': '6.756e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '146.5', 'tokens/total': 75550720, 'tokens/trainable': 23916918, 'epoch': '4.473'}
+ 89%|████████▉ | 4610/5155 [11:26:09<1:21:11,  8.94s/it] 89%|████████▉ | 4611/5155 [11:26:18<1:20:45,  8.91s/it] 89%|████████▉ | 4612/5155 [11:26:27<1:20:21,  8.88s/it] 89%|████████▉ | 4613/5155 [11:26:36<1:21:12,  8.99s/it] 90%|████████▉ | 4614/5155 [11:26:45<1:20:38,  8.94s/it] 90%|████████▉ | 4615/5155 [11:26:54<1:20:11,  8.91s/it] 90%|████████▉ | 4616/5155 [11:27:02<1:19:47,  8.88s/it] 90%|████████▉ | 4617/5155 [11:27:11<1:19:31,  8.87s/it] 90%|████████▉ | 4618/5155 [11:27:20<1:20:18,  8.97s/it] 90%|████████▉ | 4619/5155 [11:27:29<1:19:35,  8.91s/it] 90%|████████▉ | 4620/5155 [11:27:38<1:19:01,  8.86s/it]                                                        {'loss': '7.074e-07', 'grad_norm': '5.858e-06', 'learning_rate': '6.513e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '146.1', 'tokens/total': 75714560, 'tokens/trainable': 23968898, 'epoch': '4.483'}
+ 90%|████████▉ | 4620/5155 [11:27:38<1:19:01,  8.86s/it] 90%|████████▉ | 4621/5155 [11:27:47<1:18:41,  8.84s/it] 90%|████████▉ | 4622/5155 [11:27:56<1:19:34,  8.96s/it] 90%|████████▉ | 4623/5155 [11:28:05<1:19:06,  8.92s/it] 90%|████████▉ | 4624/5155 [11:28:14<1:18:41,  8.89s/it] 90%|████████▉ | 4625/5155 [11:28:22<1:18:22,  8.87s/it] 90%|████████▉ | 4626/5155 [11:28:31<1:18:07,  8.86s/it] 90%|████████▉ | 4627/5155 [11:28:41<1:18:57,  8.97s/it] 90%|████████▉ | 4628/5155 [11:28:49<1:18:23,  8.92s/it] 90%|████████▉ | 4629/5155 [11:28:58<1:17:59,  8.90s/it] 90%|████████▉ | 4630/5155 [11:29:07<1:17:41,  8.88s/it]                                                        {'loss': '5.242e-06', 'grad_norm': '0.002103', 'learning_rate': '6.275e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '142.3', 'tokens/total': 75878400, 'tokens/trainable': 24020676, 'epoch': '4.493'}
+ 90%|████████▉ | 4630/5155 [11:29:07<1:17:41,  8.88s/it] 90%|████████▉ | 4631/5155 [11:29:16<1:18:25,  8.98s/it] 90%|████████▉ | 4632/5155 [11:29:25<1:17:53,  8.94s/it] 90%|████████▉ | 4633/5155 [11:29:34<1:17:28,  8.91s/it] 90%|████████▉ | 4634/5155 [11:29:43<1:17:08,  8.88s/it] 90%|████████▉ | 4635/5155 [11:29:52<1:16:48,  8.86s/it] 90%|████████▉ | 4636/5155 [11:30:01<1:17:36,  8.97s/it] 90%|████████▉ | 4637/5155 [11:30:10<1:17:06,  8.93s/it] 90%|████████▉ | 4638/5155 [11:30:18<1:16:43,  8.90s/it] 90%|████████▉ | 4639/5155 [11:30:27<1:16:21,  8.88s/it] 90%|█████████ | 4640/5155 [11:30:37<1:17:06,  8.98s/it]                                                        {'loss': '3.21e-06', 'grad_norm': '0.00126', 'learning_rate': '6.041e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '132.1', 'tokens/total': 76042240, 'tokens/trainable': 24072962, 'epoch': '4.502'}
+ 90%|█████████ | 4640/5155 [11:30:37<1:17:06,  8.98s/it] 90%|█████████ | 4641/5155 [11:30:46<1:17:01,  8.99s/it] 90%|█████████ | 4642/5155 [11:30:54<1:16:29,  8.95s/it] 90%|█████████ | 4643/5155 [11:31:03<1:16:01,  8.91s/it] 90%|█████████ | 4644/5155 [11:31:12<1:15:41,  8.89s/it][2026-02-26 10:51:58,774] [INFO] [axolotl.core.trainers.base.evaluate:400] [PID:2758243] Running evaluation step...
+[2026-02-26 10:52:00,116] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.6568596363067627
+[2026-02-26 10:52:00,765] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.6486866474151611
+[2026-02-26 10:52:01,406] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.6400856971740723
+[2026-02-26 10:52:02,062] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:2758243] generate_batches time: 0.655940055847168
+[2026-02-26 10:52:02,062] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:2758243] gather_len_batches: [17]
+
+  0%|          | 0/17 [00:00<?, ?it/s][A
+ 12%|█▏        | 2/17 [00:00<00:04,  3.18it/s][A
+ 18%|█▊        | 3/17 [00:01<00:06,  2.23it/s][A
+ 24%|██▎       | 4/17 [00:01<00:06,  1.93it/s][A
+ 29%|██▉       | 5/17 [00:02<00:07,  1.62it/s][A
+ 35%|███▌      | 6/17 [00:03<00:06,  1.61it/s][A
+ 41%|████      | 7/17 [00:03<00:06,  1.60it/s][A
+ 47%|████▋     | 8/17 [00:04<00:05,  1.59it/s][A
+ 53%|█████▎    | 9/17 [00:05<00:06,  1.31it/s][A
+ 59%|█████▉    | 10/17 [00:06<00:05,  1.39it/s][A
+ 65%|██████▍   | 11/17 [00:06<00:04,  1.44it/s][A
+ 71%|███████   | 12/17 [00:07<00:03,  1.48it/s][A
+ 76%|███████▋  | 13/17 [00:08<00:03,  1.29it/s][A
+ 82%|████████▏ | 14/17 [00:09<00:02,  1.39it/s][A
+ 88%|████████▊ | 15/17 [00:09<00:01,  1.44it/s][A
+ 94%|█████████▍| 16/17 [00:10<00:00,  1.48it/s][A
+100%|██████████| 17/17 [00:10<00:00,  1.58it/s][A                                                        
+                                               [A{'eval_loss': '5.762e-06', 'eval_runtime': '12.5', 'eval_samples_per_second': '16', 'eval_steps_per_second': '8.001', 'eval_ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'epoch': '4.506', 'tokens/train_per_sec_per_gpu': '158.6'}
+ 90%|█████████ | 4644/5155 [11:31:28<1:15:41,  8.89s/it]
+100%|██████████| 17/17 [00:10<00:00,  1.58it/s][A
+                                               [A 90%|█████████ | 4645/5155 [11:31:37<1:55:58, 13.64s/it] 90%|█████████ | 4646/5155 [11:31:46<1:43:25, 12.19s/it] 90%|█████████ | 4647/5155 [11:31:54<1:34:43, 11.19s/it] 90%|█████████ | 4648/5155 [11:32:03<1:28:35, 10.48s/it] 90%|█████████ | 4649/5155 [11:32:13<1:25:31, 10.14s/it] 90%|█████████ | 4650/5155 [11:32:21<1:22:07,  9.76s/it]                                                        {'loss': '6.751e-06', 'grad_norm': '5.26e-06', 'learning_rate': '5.811e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '149.4', 'tokens/total': 76206080, 'tokens/trainable': 24124396, 'epoch': '4.512'}
+ 90%|█████████ | 4650/5155 [11:32:21<1:22:07,  9.76s/it] 90%|█████████ | 4651/5155 [11:32:30<1:19:42,  9.49s/it] 90%|█████████ | 4652/5155 [11:32:39<1:17:56,  9.30s/it] 90%|█████████ | 4653/5155 [11:32:48<1:17:44,  9.29s/it] 90%|█████████ | 4654/5155 [11:32:57<1:16:23,  9.15s/it] 90%|█████████ | 4655/5155 [11:33:06<1:15:31,  9.06s/it] 90%|█████████ | 4656/5155 [11:33:15<1:14:52,  9.00s/it] 90%|█████████ | 4657/5155 [11:33:24<1:14:20,  8.96s/it] 90%|█████████ | 4658/5155 [11:33:33<1:14:57,  9.05s/it] 90%|█████████ | 4659/5155 [11:33:42<1:14:15,  8.98s/it] 90%|█████████ | 4660/5155 [11:33:51<1:13:49,  8.95s/it]                                                        {'loss': '7.532e-06', 'grad_norm': '1.01e-05', 'learning_rate': '5.586e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '149.3', 'tokens/total': 76369920, 'tokens/trainable': 24176604, 'epoch': '4.522'}
+ 90%|█��███████ | 4660/5155 [11:33:51<1:13:49,  8.95s/it] 90%|█████████ | 4661/5155 [11:34:00<1:13:28,  8.92s/it] 90%|█████████ | 4662/5155 [11:34:09<1:14:14,  9.04s/it] 90%|█████████ | 4663/5155 [11:34:18<1:13:35,  8.98s/it] 90%|█████████ | 4664/5155 [11:34:27<1:13:08,  8.94s/it] 90%|█████████ | 4665/5155 [11:34:36<1:12:48,  8.92s/it] 91%|█████████ | 4666/5155 [11:34:44<1:12:29,  8.89s/it] 91%|█████████ | 4667/5155 [11:34:54<1:13:16,  9.01s/it] 91%|█████████ | 4668/5155 [11:35:02<1:12:41,  8.95s/it] 91%|█████████ | 4669/5155 [11:35:11<1:12:18,  8.93s/it] 91%|█████████ | 4670/5155 [11:35:20<1:11:59,  8.91s/it]                                                        {'loss': '1.992e-06', 'grad_norm': '0.001418', 'learning_rate': '5.365e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '146', 'tokens/total': 76533760, 'tokens/trainable': 24228912, 'epoch': '4.531'}
+ 91%|█████████ | 4670/5155 [11:35:20<1:11:59,  8.91s/it] 91%|█████████ | 4671/5155 [11:35:29<1:12:45,  9.02s/it] 91%|█████████ | 4672/5155 [11:35:38<1:12:06,  8.96s/it] 91%|█████████ | 4673/5155 [11:35:47<1:11:41,  8.92s/it] 91%|█████████ | 4674/5155 [11:35:56<1:11:22,  8.90s/it] 91%|█████████ | 4675/5155 [11:36:05<1:11:20,  8.92s/it] 91%|█████████ | 4676/5155 [11:36:14<1:12:00,  9.02s/it] 91%|█████████ | 4677/5155 [11:36:23<1:11:27,  8.97s/it] 91%|█████████ | 4678/5155 [11:36:32<1:11:02,  8.94s/it] 91%|█████████ | 4679/5155 [11:36:41<1:10:42,  8.91s/it] 91%|█████████ | 4680/5155 [11:36:50<1:11:22,  9.02s/it]                                                        {'loss': '1.395e-05', 'grad_norm': '0.000173', 'learning_rate': '5.149e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '141.1', 'tokens/total': 76697600, 'tokens/trainable': 24280758, 'epoch': '4.541'}
+ 91%|█████████ | 4680/5155 [11:36:50<1:11:22,  9.02s/it] 91%|█████████ | 4681/5155 [11:36:59<1:10:50,  8.97s/it] 91%|█████████ | 4682/5155 [11:37:08<1:10:25,  8.93s/it] 91%|█████████ | 4683/5155 [11:37:17<1:10:03,  8.90s/it] 91%|█████████ | 4684/5155 [11:37:25<1:09:45,  8.89s/it] 91%|█████████ | 4685/5155 [11:37:35<1:10:29,  9.00s/it] 91%|█████████ | 4686/5155 [11:37:44<1:09:59,  8.95s/it] 91%|█████████ | 4687/5155 [11:37:52<1:09:34,  8.92s/it] 91%|█████████ | 4688/5155 [11:38:01<1:09:14,  8.90s/it] 91%|█████████ | 4689/5155 [11:38:10<1:09:58,  9.01s/it] 91%|█████████ | 4690/5155 [11:38:19<1:09:26,  8.96s/it]                                                        {'loss': '1.418e-06', 'grad_norm': '0.0003062', 'learning_rate': '4.936e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '145.7', 'tokens/total': 76861440, 'tokens/trainable': 24332740, 'epoch': '4.551'}
+ 91%|█████████ | 4690/5155 [11:38:19<1:09:26,  8.96s/it] 91%|█████████ | 4691/5155 [11:38:28<1:09:06,  8.94s/it] 91%|█████████ | 4692/5155 [11:38:37<1:08:43,  8.91s/it] 91%|█████████ | 4693/5155 [11:38:46<1:08:34,  8.91s/it] 91%|█████████ | 4694/5155 [11:38:55<1:09:16,  9.02s/it] 91%|█████████ | 4695/5155 [11:39:04<1:08:45,  8.97s/it] 91%|█████████ | 4696/5155 [11:39:13<1:08:18,  8.93s/it] 91%|█████████ | 4697/5155 [11:39:22<1:07:57,  8.90s/it] 91%|█████████ | 4698/5155 [11:39:31<1:08:36,  9.01s/it] 91%|█████████ | 4699/5155 [11:39:40<1:08:06,  8.96s/it] 91%|█████████ | 4700/5155 [11:39:49<1:07:40,  8.92s/it]                                                        {'loss': '1.085e-06', 'grad_norm': '0.0003939', 'learning_rate': '4.728e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '153.3', 'tokens/total': 77025280, 'tokens/trainable': 24384516, 'epoch': '4.56'}
+ 91%|█████████ | 4700/5155 [11:39:49<1:07:40,  8.92s/it] 91%|█████████ | 4701/5155 [11:39:58<1:07:21,  8.90s/it] 91%|█████████ | 4702/5155 [11:40:06<1:07:05,  8.89s/it] 91%|█████████ | 4703/5155 [11:40:16<1:07:46,  9.00s/it] 91%|███���█████▏| 4704/5155 [11:40:24<1:07:17,  8.95s/it] 91%|█████████▏| 4705/5155 [11:40:33<1:06:52,  8.92s/it] 91%|█████████▏| 4706/5155 [11:40:42<1:06:35,  8.90s/it] 91%|█████████▏| 4707/5155 [11:40:51<1:07:17,  9.01s/it] 91%|█████████▏| 4708/5155 [11:41:00<1:06:47,  8.97s/it] 91%|█████████▏| 4709/5155 [11:41:09<1:06:25,  8.94s/it] 91%|█████████▏| 4710/5155 [11:41:18<1:06:06,  8.91s/it]                                                        {'loss': '1.349e-06', 'grad_norm': '0.0001113', 'learning_rate': '4.525e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '141.7', 'tokens/total': 77189120, 'tokens/trainable': 24436472, 'epoch': '4.57'}
+ 91%|█████████▏| 4710/5155 [11:41:18<1:06:06,  8.91s/it] 91%|█████████▏| 4711/5155 [11:41:27<1:05:46,  8.89s/it] 91%|█████████▏| 4712/5155 [11:41:36<1:06:30,  9.01s/it] 91%|█████████▏| 4713/5155 [11:41:45<1:06:02,  8.96s/it] 91%|█████████▏| 4714/5155 [11:41:54<1:05:37,  8.93s/it] 91%|█████████▏| 4715/5155 [11:42:03<1:05:18,  8.90s/it] 91%|█████████▏| 4716/5155 [11:42:12<1:05:55,  9.01s/it] 92%|█████████▏| 4717/5155 [11:42:21<1:05:26,  8.96s/it] 92%|█████████▏| 4718/5155 [11:42:30<1:05:02,  8.93s/it] 92%|█████████▏| 4719/5155 [11:42:39<1:04:42,  8.91s/it] 92%|█████████▏| 4720/5155 [11:42:47<1:04:26,  8.89s/it]                                                        {'loss': '9.208e-07', 'grad_norm': '1.816e-05', 'learning_rate': '4.326e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '151.9', 'tokens/total': 77352960, 'tokens/trainable': 24488940, 'epoch': '4.58'}
+ 92%|█████████▏| 4720/5155 [11:42:47<1:04:26,  8.89s/it] 92%|█████████▏| 4721/5155 [11:42:57<1:05:07,  9.00s/it] 92%|█████████▏| 4722/5155 [11:43:06<1:04:40,  8.96s/it] 92%|█████████▏| 4723/5155 [11:43:14<1:04:14,  8.92s/it] 92%|█████████▏| 4724/5155 [11:43:23<1:03:57,  8.90s/it] 92%|█████████▏| 4725/5155 [11:43:32<1:04:36,  9.02s/it] 92%|█████████▏| 4726/5155 [11:43:41<1:04:07,  8.97s/it] 92%|█████████▏| 4727/5155 [11:43:50<1:03:44,  8.94s/it] 92%|█████████▏| 4728/5155 [11:43:59<1:03:17,  8.89s/it] 92%|█████████▏| 4729/5155 [11:44:08<1:03:03,  8.88s/it] 92%|█████████▏| 4730/5155 [11:44:17<1:03:41,  8.99s/it]                                                        {'loss': '1.095e-06', 'grad_norm': '5.271e-05', 'learning_rate': '4.131e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '147.3', 'tokens/total': 77516800, 'tokens/trainable': 24540744, 'epoch': '4.59'}
+ 92%|█████████▏| 4730/5155 [11:44:17<1:03:41,  8.99s/it] 92%|█████████▏| 4731/5155 [11:44:26<1:03:15,  8.95s/it] 92%|█████████▏| 4732/5155 [11:44:35<1:02:52,  8.92s/it] 92%|█████████▏| 4733/5155 [11:44:44<1:02:33,  8.90s/it] 92%|█████████▏| 4734/5155 [11:44:53<1:03:11,  9.01s/it] 92%|█████████▏| 4735/5155 [11:45:02<1:02:43,  8.96s/it] 92%|█████████▏| 4736/5155 [11:45:11<1:02:23,  8.93s/it] 92%|█████████▏| 4737/5155 [11:45:19<1:01:59,  8.90s/it] 92%|█████████▏| 4738/5155 [11:45:28<1:01:45,  8.89s/it] 92%|█████████▏| 4739/5155 [11:45:38<1:02:27,  9.01s/it] 92%|█████████▏| 4740/5155 [11:45:47<1:02:06,  8.98s/it]                                                        {'loss': '2.57e-06', 'grad_norm': '7.382e-06', 'learning_rate': '3.94e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '144.8', 'tokens/total': 77680640, 'tokens/trainable': 24592238, 'epoch': '4.599'}
+ 92%|█████████▏| 4740/5155 [11:45:47<1:02:06,  8.98s/it] 92%|█████████▏| 4741/5155 [11:45:55<1:01:47,  8.96s/it] 92%|█████████▏| 4742/5155 [11:46:04<1:01:33,  8.94s/it] 92%|█████████▏| 4743/5155 [11:46:14<1:02:15,  9.07s/it] 92%|█████████▏| 4744/5155 [11:46:23<1:01:46,  9.02s/it] 92%|█████████▏| 4745/5155 [11:46:31<1:01:18,  8.97s/it] 92%|█████████▏| 4746/5155 [11:46:40<1:00:58,  8.95s/it] 92%|█████████▏| 4747/5155 [11:46:49<1:00:38,  8.92s/it] 92%|█████████▏| 4748/5155 [11:46:58<1:01:12,  9.02s/it] 92%|█████████▏| 4749/5155 [11:47:07<1:00:41,  8.97s/it] 92%|█████████▏| 4750/5155 [11:47:16<1:00:19,  8.94s/it]                                                        {'loss': '1.239e-06', 'grad_norm': '0.0002189', 'learning_rate': '3.754e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '157.5', 'tokens/total': 77844480, 'tokens/trainable': 24643620, 'epoch': '4.609'}
+ 92%|█████████▏| 4750/5155 [11:47:16<1:00:19,  8.94s/it] 92%|█████████▏| 4751/5155 [11:47:25<1:00:00,  8.91s/it] 92%|█████████▏| 4752/5155 [11:47:34<1:00:32,  9.01s/it] 92%|█████████▏| 4753/5155 [11:47:43<1:00:02,  8.96s/it] 92%|█████████▏| 4754/5155 [11:47:52<59:41,  8.93s/it]   92%|█████████▏| 4755/5155 [11:48:01<59:24,  8.91s/it] 92%|█████████▏| 4756/5155 [11:48:10<59:06,  8.89s/it] 92%|█████████▏| 4757/5155 [11:48:19<59:45,  9.01s/it] 92%|█████████▏| 4758/5155 [11:48:28<59:18,  8.96s/it] 92%|█████████▏| 4759/5155 [11:48:37<58:56,  8.93s/it] 92%|█████████▏| 4760/5155 [11:48:45<58:36,  8.90s/it]                                                      {'loss': '1.456e-06', 'grad_norm': '8.891e-05', 'learning_rate': '3.573e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '143.9', 'tokens/total': 78008320, 'tokens/trainable': 24695024, 'epoch': '4.619'}
+ 92%|█████████▏| 4760/5155 [11:48:45<58:36,  8.90s/it] 92%|█████████▏| 4761/5155 [11:48:55<59:12,  9.02s/it] 92%|█████████▏| 4762/5155 [11:49:04<58:44,  8.97s/it] 92%|█████████▏| 4763/5155 [11:49:12<58:21,  8.93s/it] 92%|█████████▏| 4764/5155 [11:49:21<57:59,  8.90s/it] 92%|█████████▏| 4765/5155 [11:49:30<57:46,  8.89s/it] 92%|█████████▏| 4766/5155 [11:49:39<58:23,  9.01s/it] 92%|█████████▏| 4767/5155 [11:49:48<57:58,  8.96s/it] 92%|█████████▏| 4768/5155 [11:49:57<57:35,  8.93s/it] 93%|█████████▎| 4769/5155 [11:50:06<57:14,  8.90s/it] 93%|█████████▎| 4770/5155 [11:50:15<58:12,  9.07s/it]                                                      {'loss': '7.67e-06', 'grad_norm': '0.0003617', 'learning_rate': '3.396e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '140.9', 'tokens/total': 78172160, 'tokens/trainable': 24747724, 'epoch': '4.628'}
+ 93%|█████████▎| 4770/5155 [11:50:15<58:12,  9.07s/it] 93%|█████████▎| 4771/5155 [11:50:24<57:41,  9.01s/it] 93%|█████████▎| 4772/5155 [11:50:33<57:16,  8.97s/it] 93%|█████████▎| 4773/5155 [11:50:42<56:55,  8.94s/it] 93%|█████████▎| 4774/5155 [11:50:51<56:32,  8.91s/it] 93%|█████████▎| 4775/5155 [11:51:00<57:04,  9.01s/it] 93%|█████████▎| 4776/5155 [11:51:09<56:37,  8.96s/it] 93%|█████████▎| 4777/5155 [11:51:18<56:15,  8.93s/it] 93%|█████████▎| 4778/5155 [11:51:27<55:58,  8.91s/it] 93%|█████████▎| 4779/5155 [11:51:36<56:31,  9.02s/it] 93%|█████████▎| 4780/5155 [11:51:45<56:03,  8.97s/it]                                                      {'loss': '8.477e-06', 'grad_norm': '7.654e-06', 'learning_rate': '3.223e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '152.4', 'tokens/total': 78336000, 'tokens/trainable': 24799342, 'epoch': '4.638'}
+ 93%|█████████▎| 4780/5155 [11:51:45<56:03,  8.97s/it] 93%|█████████▎| 4781/5155 [11:51:54<55:40,  8.93s/it] 93%|█████████▎| 4782/5155 [11:52:03<55:20,  8.90s/it] 93%|█████████▎| 4783/5155 [11:52:11<55:05,  8.89s/it] 93%|█████████▎| 4784/5155 [11:52:21<55:40,  9.00s/it] 93%|█████████▎| 4785/5155 [11:52:30<55:14,  8.96s/it] 93%|█████████▎| 4786/5155 [11:52:38<54:52,  8.92s/it] 93%|█████████▎| 4787/5155 [11:52:47<54:36,  8.90s/it] 93%|█████████▎| 4788/5155 [11:52:56<55:08,  9.01s/it] 93%|█████████▎| 4789/5155 [11:53:05<54:42,  8.97s/it] 93%|█████████▎| 4790/5155 [11:53:14<54:17,  8.92s/it]                                                      {'loss': '6.784e-06', 'grad_norm': '4.952e-05', 'learning_rate': '3.055e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '144.3', 'tokens/total': 78499840, 'tokens/trainable': 24851148, 'epoch': '4.648'}
+ 93%|█████████▎| 4790/5155 [11:53:14<54:17,  8.92s/it] 93%|█████████▎| 4791/5155 [11:53:23<54:01,  8.91s/it] 93%|█████████▎| 4792/5155 [11:53:32<53:46,  8.89s/it] 93%|█████████▎| 4793/5155 [11:53:41<54:15,  8.99s/it] 93%|█████████▎| 4794/5155 [11:53:50<53:50,  8.95s/it] 93%|█████████▎| 4795/5155 [11:53:59<53:32,  8.92s/it] 93%|█████████▎| 4796/5155 [11:54:08<53:16,  8.90s/it] 93%|█████████▎| 4797/5155 [11:54:17<53:44,  9.01s/it] 93%|█████████▎| 4798/5155 [11:54:26<53:19,  8.96s/it] 93%|█████████▎| 4799/5155 [11:54:35<52:59,  8.93s/it] 93%|█████████▎| 4800/5155 [11:54:44<52:41,  8.91s/it]                                                      {'loss': '6.384e-06', 'grad_norm': '2.264e-05', 'learning_rate': '2.891e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '141.7', 'tokens/total': 78663680, 'tokens/trainable': 24903048, 'epoch': '4.657'}
+ 93%|█████████▎| 4800/5155 [11:54:44<52:41,  8.91s/it] 93%|█████████▎| 4801/5155 [11:54:52<52:28,  8.89s/it] 93%|█████████▎| 4802/5155 [11:55:02<53:01,  9.01s/it] 93%|█████████▎| 4803/5155 [11:55:11<52:36,  8.97s/it] 93%|█████████▎| 4804/5155 [11:55:19<52:15,  8.93s/it] 93%|█████████▎| 4805/5155 [11:55:28<51:55,  8.90s/it] 93%|█████████▎| 4806/5155 [11:55:37<52:24,  9.01s/it] 93%|█████████▎| 4807/5155 [11:55:46<52:00,  8.97s/it] 93%|█████████▎| 4808/5155 [11:55:55<51:40,  8.94s/it] 93%|█████████▎| 4809/5155 [11:56:04<51:20,  8.90s/it] 93%|█████████▎| 4810/5155 [11:56:13<51:05,  8.89s/it]                                                      {'loss': '1.488e-05', 'grad_norm': '1.99e-05', 'learning_rate': '2.731e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '135.9', 'tokens/total': 78827520, 'tokens/trainable': 24954308, 'epoch': '4.667'}
+ 93%|█████████▎| 4810/5155 [11:56:13<51:05,  8.89s/it] 93%|█████████▎| 4811/5155 [11:56:22<51:36,  9.00s/it] 93%|█████████▎| 4812/5155 [11:56:31<51:12,  8.96s/it] 93%|█████████▎| 4813/5155 [11:56:40<50:52,  8.92s/it] 93%|█████████▎| 4814/5155 [11:56:49<50:35,  8.90s/it] 93%|█████████▎| 4815/5155 [11:56:58<51:04,  9.01s/it] 93%|█████████▎| 4816/5155 [11:57:07<50:39,  8.97s/it] 93%|█████████▎| 4817/5155 [11:57:16<50:18,  8.93s/it] 93%|█████████▎| 4818/5155 [11:57:25<50:07,  8.93s/it] 93%|█████████▎| 4819/5155 [11:57:33<49:51,  8.90s/it] 94%|█████████▎| 4820/5155 [11:57:43<50:17,  9.01s/it]                                                      {'loss': '2.76e-06', 'grad_norm': '5.345e-05', 'learning_rate': '2.577e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '140.9', 'tokens/total': 78991360, 'tokens/trainable': 25006128, 'epoch': '4.677'}
+ 94%|█████████▎| 4820/5155 [11:57:43<50:17,  9.01s/it] 94%|█████████▎| 4821/5155 [11:57:52<49:53,  8.96s/it] 94%|█████████▎| 4822/5155 [11:58:00<49:31,  8.92s/it] 94%|█████████▎| 4823/5155 [11:58:09<49:16,  8.91s/it] 94%|█████████▎| 4824/5155 [11:58:18<49:42,  9.01s/it] 94%|█████████▎| 4825/5155 [11:58:27<49:17,  8.96s/it] 94%|█████████▎| 4826/5155 [11:58:36<49:17,  8.99s/it] 94%|█████████▎| 4827/5155 [11:58:45<48:54,  8.95s/it] 94%|█████████▎| 4828/5155 [11:58:54<48:35,  8.92s/it] 94%|█████████▎| 4829/5155 [11:59:03<48:57,  9.01s/it] 94%|█████████▎| 4830/5155 [11:59:12<48:32,  8.96s/it]                                                      {'loss': '2.377e-06', 'grad_norm': '3.38e-05', 'learning_rate': '2.426e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '150.1', 'tokens/total': 79155200, 'tokens/trainable': 25057788, 'epoch': '4.687'}
+ 94%|█████████▎| 4830/5155 [11:59:12<48:32,  8.96s/it] 94%|█████████▎| 4831/5155 [11:59:21<48:12,  8.93s/it] 94%|█████████▎| 4832/5155 [11:59:30<47:55,  8.90s/it] 94%|█████████▍| 4833/5155 [11:59:39<48:19,  9.01s/it] 94%|█████████▍| 4834/5155 [11:59:48<47:55,  8.96s/it] 94%|█████████▍| 4835/5155 [11:59:57<47:36,  8.93s/it] 94%|█████████▍| 4836/5155 [12:00:06<47:21,  8.91s/it] 94%|█████████▍| 4837/5155 [12:00:15<47:05,  8.89s/it] 94%|█████████▍| 4838/5155 [12:00:24<47:32,  9.00s/it] 94%|█████████▍| 4839/5155 [12:00:33<47:09,  8.96s/it] 94%|█████████▍| 4840/5155 [12:00:41<46:51,  8.93s/it]                                                      {'loss': '1.612e-06', 'grad_norm': '5.157e-06', 'learning_rate': '2.28e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '137', 'tokens/total': 79319040, 'tokens/trainable': 25108764, 'epoch': '4.696'}
+ 94%|█████████▍| 4840/5155 [12:00:41<46:51,  8.93s/it] 94%|█████████▍| 4841/5155 [12:00:50<46:34,  8.90s/it] 94%|█████████▍| 4842/5155 [12:01:00<47:00,  9.01s/it] 94%|█████████▍| 4843/5155 [12:01:08<46:37,  8.97s/it] 94%|█████████▍| 4844/5155 [12:01:17<46:17,  8.93s/it] 94%|█████████▍| 4845/5155 [12:01:26<45:59,  8.90s/it] 94%|█████████▍| 4846/5155 [12:01:35<46:24,  9.01s/it] 94%|█████████▍| 4847/5155 [12:01:44<46:01,  8.97s/it] 94%|█████████▍| 4848/5155 [12:01:53<45:41,  8.93s/it] 94%|█████████▍| 4849/5155 [12:02:02<45:22,  8.90s/it] 94%|█████████▍| 4850/5155 [12:02:11<45:10,  8.89s/it]                                                      {'loss': '3.455e-06', 'grad_norm': '0.0001261', 'learning_rate': '2.139e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '148.5', 'tokens/total': 79482880, 'tokens/trainable': 25160368, 'epoch': '4.706'}
+ 94%|█████████▍| 4850/5155 [12:02:11<45:10,  8.89s/it] 94%|█████████▍| 4851/5155 [12:02:20<45:54,  9.06s/it] 94%|█████████▍| 4852/5155 [12:02:29<45:26,  9.00s/it] 94%|█████████▍| 4853/5155 [12:02:38<45:01,  8.95s/it] 94%|█████████▍| 4854/5155 [12:02:47<44:44,  8.92s/it] 94%|█████████▍| 4855/5155 [12:02:56<45:15,  9.05s/it] 94%|█████████▍| 4856/5155 [12:03:05<44:48,  8.99s/it] 94%|█████████▍| 4857/5155 [12:03:14<44:24,  8.94s/it] 94%|█████████▍| 4858/5155 [12:03:23<44:07,  8.92s/it] 94%|█████████▍| 4859/5155 [12:03:32<43:54,  8.90s/it] 94%|█████████▍| 4860/5155 [12:03:41<44:17,  9.01s/it]                                                      {'loss': '3.607e-05', 'grad_norm': '0.0001012', 'learning_rate': '2.002e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '140.7', 'tokens/total': 79646720, 'tokens/trainable': 25211390, 'epoch': '4.716'}
+ 94%|█████████▍| 4860/5155 [12:03:41<44:17,  9.01s/it] 94%|█████████▍| 4861/5155 [12:03:50<43:51,  8.95s/it] 94%|█████████▍| 4862/5155 [12:03:58<43:33,  8.92s/it] 94%|█████████▍| 4863/5155 [12:04:07<43:18,  8.90s/it] 94%|█████████▍| 4864/5155 [12:04:17<43:41,  9.01s/it] 94%|█████████▍| 4865/5155 [12:04:25<43:17,  8.96s/it] 94%|█████████▍| 4866/5155 [12:04:34<42:59,  8.92s/it] 94%|█████████▍| 4867/5155 [12:04:43<42:44,  8.90s/it] 94%|█████████▍| 4868/5155 [12:04:52<42:32,  8.89s/it] 94%|█████████▍| 4869/5155 [12:05:01<42:56,  9.01s/it] 94%|█████████▍| 4870/5155 [12:05:10<42:31,  8.95s/it]                                                      {'loss': '1.545e-06', 'grad_norm': '0.0004358', 'learning_rate': '1.869e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '151.5', 'tokens/total': 79810560, 'tokens/trainable': 25263012, 'epoch': '4.725'}
+ 94%|█████████▍| 4870/5155 [12:05:10<42:31,  8.95s/it] 94%|█████████▍| 4871/5155 [12:05:19<42:13,  8.92s/it] 95%|█████████▍| 4872/5155 [12:05:28<41:57,  8.90s/it] 95%|█���███████▍| 4873/5155 [12:05:37<42:18,  9.00s/it] 95%|█████████▍| 4874/5155 [12:05:46<41:55,  8.95s/it] 95%|█████████▍| 4875/5155 [12:05:55<41:49,  8.96s/it] 95%|█████████▍| 4876/5155 [12:06:04<41:31,  8.93s/it] 95%|█████████▍| 4877/5155 [12:06:13<41:16,  8.91s/it] 95%|█████████▍| 4878/5155 [12:06:22<41:33,  9.00s/it] 95%|█████████▍| 4879/5155 [12:06:31<41:12,  8.96s/it] 95%|█████████▍| 4880/5155 [12:06:39<40:53,  8.92s/it]                                                      {'loss': '2.38e-06', 'grad_norm': '0.000672', 'learning_rate': '1.741e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '137.2', 'tokens/total': 79974400, 'tokens/trainable': 25314852, 'epoch': '4.735'}
+ 95%|█████████▍| 4880/5155 [12:06:39<40:53,  8.92s/it] 95%|█████████▍| 4881/5155 [12:06:48<40:38,  8.90s/it] 95%|█████████▍| 4882/5155 [12:06:58<40:56,  9.00s/it] 95%|█████████▍| 4883/5155 [12:07:06<40:35,  8.95s/it] 95%|█████████▍| 4884/5155 [12:07:15<40:18,  8.92s/it] 95%|█████████▍| 4885/5155 [12:07:24<40:03,  8.90s/it] 95%|█████████▍| 4886/5155 [12:07:33<39:47,  8.87s/it] 95%|█████████▍| 4887/5155 [12:07:42<40:10,  8.99s/it] 95%|█████████▍| 4888/5155 [12:07:51<39:48,  8.95s/it] 95%|█████████▍| 4889/5155 [12:08:00<39:31,  8.92s/it] 95%|█████████▍| 4890/5155 [12:08:09<39:15,  8.89s/it]                                                      {'loss': '6.917e-07', 'grad_norm': '3.371e-06', 'learning_rate': '1.617e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '143.3', 'tokens/total': 80138240, 'tokens/trainable': 25366724, 'epoch': '4.745'}
+ 95%|█████████▍| 4890/5155 [12:08:09<39:15,  8.89s/it] 95%|█████████▍| 4891/5155 [12:08:18<39:33,  8.99s/it] 95%|█████████▍| 4892/5155 [12:08:27<39:13,  8.95s/it] 95%|█████████▍| 4893/5155 [12:08:36<38:57,  8.92s/it] 95%|█████████▍| 4894/5155 [12:08:44<38:41,  8.90s/it] 95%|█████████▍| 4895/5155 [12:08:53<38:28,  8.88s/it] 95%|█████████▍| 4896/5155 [12:09:03<38:58,  9.03s/it] 95%|█████████▍| 4897/5155 [12:09:12<38:36,  8.98s/it] 95%|█████████▌| 4898/5155 [12:09:20<38:16,  8.94s/it] 95%|█████████▌| 4899/5155 [12:09:29<38:02,  8.92s/it] 95%|█████████▌| 4900/5155 [12:09:39<38:26,  9.05s/it]                                                      {'loss': '6.972e-06', 'grad_norm': '0.0004525', 'learning_rate': '1.498e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '135.8', 'tokens/total': 80302080, 'tokens/trainable': 25418420, 'epoch': '4.754'}
+ 95%|█████████▌| 4900/5155 [12:09:39<38:26,  9.05s/it] 95%|█████████▌| 4901/5155 [12:09:47<38:03,  8.99s/it] 95%|█████████▌| 4902/5155 [12:09:56<37:42,  8.94s/it] 95%|█████████▌| 4903/5155 [12:10:05<37:24,  8.91s/it] 95%|█████████▌| 4904/5155 [12:10:14<37:11,  8.89s/it] 95%|█████████▌| 4905/5155 [12:10:23<37:33,  9.01s/it] 95%|█████████▌| 4906/5155 [12:10:32<37:12,  8.97s/it] 95%|█████████▌| 4907/5155 [12:10:41<36:53,  8.93s/it] 95%|█████████▌| 4908/5155 [12:10:50<36:38,  8.90s/it] 95%|█████████▌| 4909/5155 [12:10:59<36:56,  9.01s/it] 95%|█████████▌| 4910/5155 [12:11:08<36:35,  8.96s/it]                                                      {'loss': '2.997e-06', 'grad_norm': '5.25e-05', 'learning_rate': '1.384e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '141.7', 'tokens/total': 80465920, 'tokens/trainable': 25470314, 'epoch': '4.764'}
+ 95%|█████████▌| 4910/5155 [12:11:08<36:35,  8.96s/it] 95%|█████████▌| 4911/5155 [12:11:17<36:18,  8.93s/it] 95%|█████████▌| 4912/5155 [12:11:26<36:01,  8.90s/it] 95%|█████████▌| 4913/5155 [12:11:34<35:49,  8.88s/it] 95%|█████████▌| 4914/5155 [12:11:44<36:06,  8.99s/it] 95%|█████████▌| 4915/5155 [12:11:53<35:47,  8.95s/it] 95%|█████████▌| 4916/5155 [12:12:01<35:29,  8.91s/it] 95%|█████████▌| 4917/5155 [12:12:10<35:16,  8.89s/it] 95%|█████████▌| 4918/5155 [12:12:19<35:33,  9.00s/it] 95%|█████████▌| 4919/5155 [12:12:28<35:13,  8.95s/it] 95%|█████████▌| 4920/5155 [12:12:37<34:56,  8.92s/it]                                                      {'loss': '3.95e-07', 'grad_norm': '2.149e-05', 'learning_rate': '1.274e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '150.4', 'tokens/total': 80629760, 'tokens/trainable': 25521888, 'epoch': '4.774'}
+ 95%|█████████▌| 4920/5155 [12:12:37<34:56,  8.92s/it] 95%|█████████▌| 4921/5155 [12:12:46<34:42,  8.90s/it] 95%|█████████▌| 4922/5155 [12:12:55<34:30,  8.89s/it] 95%|█████████▌| 4923/5155 [12:13:04<34:48,  9.00s/it] 96%|█████████▌| 4924/5155 [12:13:13<34:27,  8.95s/it] 96%|█████████▌| 4925/5155 [12:13:22<34:11,  8.92s/it] 96%|█████████▌| 4926/5155 [12:13:31<33:58,  8.90s/it] 96%|█████████▌| 4927/5155 [12:13:40<34:14,  9.01s/it] 96%|█████████▌| 4928/5155 [12:13:49<33:52,  8.95s/it] 96%|█████████▌| 4929/5155 [12:13:58<33:37,  8.93s/it] 96%|█████████▌| 4930/5155 [12:14:06<33:24,  8.91s/it]                                                      {'loss': '7.495e-07', 'grad_norm': '6.331e-06', 'learning_rate': '1.168e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '155.2', 'tokens/total': 80793600, 'tokens/trainable': 25573316, 'epoch': '4.784'}
+ 96%|█████████▌| 4930/5155 [12:14:06<33:24,  8.91s/it] 96%|█████████▌| 4931/5155 [12:14:15<33:12,  8.89s/it] 96%|█████████▌| 4932/5155 [12:14:25<33:25,  8.99s/it] 96%|█████████▌| 4933/5155 [12:14:33<33:07,  8.95s/it] 96%|█████████▌| 4934/5155 [12:14:42<32:52,  8.92s/it] 96%|█████████▌| 4935/5155 [12:14:51<32:39,  8.91s/it] 96%|█████████▌| 4936/5155 [12:15:00<32:54,  9.02s/it] 96%|█████████▌| 4937/5155 [12:15:09<32:32,  8.96s/it] 96%|█████████▌| 4938/5155 [12:15:18<32:16,  8.92s/it] 96%|█████████▌| 4939/5155 [12:15:27<32:02,  8.90s/it] 96%|█████████▌| 4940/5155 [12:15:36<31:51,  8.89s/it]                                                      {'loss': '3.53e-07', 'grad_norm': '8.567e-06', 'learning_rate': '1.067e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '151.7', 'tokens/total': 80957440, 'tokens/trainable': 25625040, 'epoch': '4.793'}
+ 96%|█████████▌| 4940/5155 [12:15:36<31:51,  8.89s/it] 96%|█████████▌| 4941/5155 [12:15:45<32:08,  9.01s/it] 96%|█████████▌| 4942/5155 [12:15:54<31:48,  8.96s/it] 96%|█████████▌| 4943/5155 [12:16:03<31:31,  8.92s/it] 96%|█████████▌| 4944/5155 [12:16:12<31:18,  8.90s/it] 96%|█████████▌| 4945/5155 [12:16:21<31:29,  9.00s/it] 96%|█████████▌| 4946/5155 [12:16:30<31:11,  8.95s/it] 96%|█████████▌| 4947/5155 [12:16:39<30:55,  8.92s/it] 96%|█████████▌| 4948/5155 [12:16:47<30:41,  8.90s/it] 96%|█████████▌| 4949/5155 [12:16:56<30:29,  8.88s/it] 96%|█████████▌| 4950/5155 [12:17:05<30:44,  9.00s/it]                                                      {'loss': '1.298e-06', 'grad_norm': '1.634e-05', 'learning_rate': '9.711e-07', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '144.2', 'tokens/total': 81121280, 'tokens/trainable': 25676858, 'epoch': '4.803'}
+ 96%|█████████▌| 4950/5155 [12:17:05<30:44,  9.00s/it] 96%|█████████▌| 4951/5155 [12:17:14<30:26,  8.95s/it] 96%|█████████▌| 4952/5155 [12:17:23<30:10,  8.92s/it] 96%|█████████▌| 4953/5155 [12:17:32<29:57,  8.90s/it] 96%|█████████▌| 4954/5155 [12:17:41<30:09,  9.00s/it] 96%|█████████▌| 4955/5155 [12:17:50<29:50,  8.95s/it] 96%|█████████▌| 4956/5155 [12:17:59<29:35,  8.92s/it] 96%|█████████▌| 4957/5155 [12:18:08<29:22,  8.90s/it] 96%|█████████▌| 4958/5155 [12:18:17<29:11,  8.89s/it] 96%|█████████▌| 4959/5155 [12:18:26<29:23,  9.00s/it] 96%|█████████▌| 4960/5155 [12:18:35<29:04,  8.95s/it]                                                      {'loss': '1.663e-06', 'grad_norm': '4.749e-06', 'learning_rate': '8.792e-07', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '146', 'tokens/total': 81285120, 'tokens/trainable': 25728890, 'epoch': '4.813'}
+ 96%|█████████▌| 4960/5155 [12:18:35<29:04,  8.95s/it] 96%|█████████▌| 4961/5155 [12:18:44<28:50,  8.92s/it] 96%|█████████▋| 4962/5155 [12:18:52<28:36,  8.90s/it] 96%|█████████▋| 4963/5155 [12:19:02<28:48,  9.00s/it] 96%|█████████▋| 4964/5155 [12:19:11<28:29,  8.95s/it] 96%|█████████▋| 4965/5155 [12:19:19<28:15,  8.92s/it] 96%|█████████▋| 4966/5155 [12:19:28<28:02,  8.90s/it] 96%|█████████▋| 4967/5155 [12:19:37<27:50,  8.89s/it] 96%|█████████▋| 4968/5155 [12:19:46<28:03,  9.00s/it] 96%|█████████▋| 4969/5155 [12:19:55<27:45,  8.96s/it] 96%|█████████▋| 4970/5155 [12:20:04<27:30,  8.92s/it]                                                      {'loss': '2.107e-06', 'grad_norm': '1.23e-05', 'learning_rate': '7.919e-07', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '150.7', 'tokens/total': 81448960, 'tokens/trainable': 25780860, 'epoch': '4.822'}
+ 96%|█████████▋| 4970/5155 [12:20:04<27:30,  8.92s/it] 96%|█████████▋| 4971/5155 [12:20:13<27:17,  8.90s/it] 96%|█████████▋| 4972/5155 [12:20:22<27:27,  9.01s/it] 96%|█████████▋| 4973/5155 [12:20:31<27:10,  8.96s/it] 96%|█████████▋| 4974/5155 [12:20:40<26:56,  8.93s/it] 97%|█████████▋| 4975/5155 [12:20:49<26:41,  8.90s/it] 97%|█████████▋| 4976/5155 [12:20:58<26:30,  8.88s/it] 97%|█████████▋| 4977/5155 [12:21:07<26:41,  9.00s/it] 97%|█████████▋| 4978/5155 [12:21:16<26:24,  8.95s/it] 97%|█████████▋| 4979/5155 [12:21:25<26:10,  8.92s/it] 97%|█████████▋| 4980/5155 [12:21:33<25:58,  8.90s/it]                                                      {'loss': '1.166e-06', 'grad_norm': '5.343e-06', 'learning_rate': '7.092e-07', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '139.7', 'tokens/total': 81612800, 'tokens/trainable': 25832514, 'epoch': '4.832'}
+ 97%|█████████▋| 4980/5155 [12:21:33<25:58,  8.90s/it] 97%|█████████▋| 4981/5155 [12:21:43<26:08,  9.01s/it] 97%|█████████▋| 4982/5155 [12:21:51<25:50,  8.96s/it] 97%|█████████▋| 4983/5155 [12:22:00<25:35,  8.93s/it] 97%|█████████▋| 4984/5155 [12:22:09<25:22,  8.90s/it] 97%|█████████▋| 4985/5155 [12:22:18<25:10,  8.89s/it] 97%|█████████▋| 4986/5155 [12:22:27<25:21,  9.00s/it] 97%|█████████▋| 4987/5155 [12:22:36<25:05,  8.96s/it] 97%|█████████▋| 4988/5155 [12:22:45<24:51,  8.93s/it] 97%|█████████▋| 4989/5155 [12:22:54<24:38,  8.91s/it] 97%|█████████▋| 4990/5155 [12:23:03<24:47,  9.01s/it]                                                      {'loss': '1.154e-06', 'grad_norm': '3.274e-05', 'learning_rate': '6.309e-07', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '136.6', 'tokens/total': 81776640, 'tokens/trainable': 25884936, 'epoch': '4.842'}
+ 97%|█████████▋| 4990/5155 [12:23:03<24:47,  9.01s/it] 97%|█████████▋| 4991/5155 [12:23:12<24:30,  8.97s/it] 97%|█████████▋| 4992/5155 [12:23:21<24:16,  8.93s/it] 97%|█████████▋| 4993/5155 [12:23:30<24:03,  8.91s/it] 97%|█████████▋| 4994/5155 [12:23:39<23:50,  8.89s/it] 97%|█████████▋| 4995/5155 [12:23:48<23:59,  8.99s/it] 97%|█████████▋| 4996/5155 [12:23:57<23:43,  8.95s/it] 97%|█████████▋| 4997/5155 [12:24:05<23:29,  8.92s/it] 97%|█████████▋| 4998/5155 [12:24:14<23:17,  8.90s/it] 97%|█████████▋| 4999/5155 [12:24:24<23:23,  9.00s/it] 97%|█████████▋| 5000/5155 [12:24:32<23:07,  8.95s/it]                                                      {'loss': '1.287e-06', 'grad_norm': '1.959e-05', 'learning_rate': '5.573e-07', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '143.3', 'tokens/total': 81940480, 'tokens/trainable': 25936756, 'epoch': '4.851'}
+ 97%|█████████▋| 5000/5155 [12:24:32<23:07,  8.95s/it] 97%|█████████▋| 5001/5155 [12:24:41<22:54,  8.93s/it] 97%|█████████▋| 5002/5155 [12:24:50<22:41,  8.90s/it] 97%|█████████▋| 5003/5155 [12:24:59<22:29,  8.88s/it] 97%|█████████▋| 5004/5155 [12:25:08<22:37,  8.99s/it] 97%|█████████▋| 5005/5155 [12:25:17<22:22,  8.95s/it] 97%|█████████▋| 5006/5155 [12:25:26<22:08,  8.92s/it] 97%|█████████▋| 5007/5155 [12:25:35<21:55,  8.89s/it] 97%|█████████▋| 5008/5155 [12:25:44<22:03,  9.00s/it] 97%|█████████▋| 5009/5155 [12:25:53<21:47,  8.96s/it] 97%|█████████▋| 5010/5155 [12:26:02<21:33,  8.92s/it]                                                      {'loss': '3.709e-06', 'grad_norm': '4.502e-06', 'learning_rate': '4.882e-07', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '146.4', 'tokens/total': 82104320, 'tokens/trainable': 25988934, 'epoch': '4.861'}
+ 97%|█████████▋| 5010/5155 [12:26:02<21:33,  8.92s/it] 97%|█████████▋| 5011/5155 [12:26:11<21:21,  8.90s/it] 97%|█████████▋| 5012/5155 [12:26:19<21:10,  8.89s/it] 97%|█████████▋| 5013/5155 [12:26:29<21:17,  9.00s/it] 97%|█████████▋| 5014/5155 [12:26:37<21:01,  8.95s/it] 97%|█████████▋| 5015/5155 [12:26:46<20:48,  8.92s/it] 97%|█████████▋| 5016/5155 [12:26:55<20:36,  8.90s/it] 97%|█████████▋| 5017/5155 [12:27:04<20:42,  9.01s/it] 97%|█████████▋| 5018/5155 [12:27:13<20:26,  8.95s/it] 97%|█████████▋| 5019/5155 [12:27:22<20:13,  8.93s/it] 97%|█████████▋| 5020/5155 [12:27:31<20:02,  8.91s/it]                                                      {'loss': '4.015e-05', 'grad_norm': '0.0002851', 'learning_rate': '4.236e-07', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '142.9', 'tokens/total': 82268160, 'tokens/trainable': 26041196, 'epoch': '4.871'}
+ 97%|█████████▋| 5020/5155 [12:27:31<20:02,  8.91s/it] 97%|█████████▋| 5021/5155 [12:27:40<19:51,  8.89s/it] 97%|█████████▋| 5022/5155 [12:27:49<19:58,  9.01s/it] 97%|█████████▋| 5023/5155 [12:27:58<19:41,  8.95s/it] 97%|█████████▋| 5024/5155 [12:28:07<19:28,  8.92s/it] 97%|█████████▋| 5025/5155 [12:28:16<19:17,  8.90s/it] 97%|█████████▋| 5026/5155 [12:28:25<19:22,  9.01s/it] 98%|█████████▊| 5027/5155 [12:28:34<19:05,  8.95s/it] 98%|█████████▊| 5028/5155 [12:28:43<18:52,  8.92s/it] 98%|█████████▊| 5029/5155 [12:28:51<18:41,  8.90s/it] 98%|█████████▊| 5030/5155 [12:29:00<18:30,  8.88s/it]                                                      {'loss': '4.454e-06', 'grad_norm': '1.096e-05', 'learning_rate': '3.637e-07', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '151.9', 'tokens/total': 82432000, 'tokens/trainable': 26093568, 'epoch': '4.88'}
+ 98%|█████████▊| 5030/5155 [12:29:00<18:30,  8.88s/it] 98%|█████████▊| 5031/5155 [12:29:10<18:35,  8.99s/it] 98%|█████████▊| 5032/5155 [12:29:18<18:21,  8.95s/it] 98%|█████████▊| 5033/5155 [12:29:27<18:08,  8.93s/it] 98%|█████████▊| 5034/5155 [12:29:36<17:57,  8.90s/it] 98%|█████████▊| 5035/5155 [12:29:45<18:00,  9.01s/it] 98%|█████████▊| 5036/5155 [12:29:54<17:46,  8.96s/it] 98%|█████████▊| 5037/5155 [12:30:03<17:33,  8.93s/it] 98%|█████████▊| 5038/5155 [12:30:12<17:22,  8.91s/it] 98%|█████████▊| 5039/5155 [12:30:21<17:10,  8.88s/it] 98%|█████████▊| 5040/5155 [12:30:30<17:14,  8.99s/it]                                                      {'loss': '6.81e-06', 'grad_norm': '1.337e-05', 'learning_rate': '3.083e-07', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '140', 'tokens/total': 82595840, 'tokens/trainable': 26145458, 'epoch': '4.89'}
+ 98%|█████████▊| 5040/5155 [12:30:30<17:14,  8.99s/it] 98%|█████████▊| 5041/5155 [12:30:39<17:01,  8.96s/it] 98%|█████████▊| 5042/5155 [12:30:48<16:49,  8.93s/it] 98%|█████████▊| 5043/5155 [12:30:57<16:37,  8.91s/it] 98%|█████████▊| 5044/5155 [12:31:06<16:39,  9.01s/it] 98%|█████████▊| 5045/5155 [12:31:15<16:25,  8.96s/it] 98%|█████████▊| 5046/5155 [12:31:24<16:13,  8.93s/it] 98%|█████████▊| 5047/5155 [12:31:32<16:02,  8.91s/it] 98%|█████████▊| 5048/5155 [12:31:41<15:50,  8.89s/it] 98%|█████████▊| 5049/5155 [12:31:50<15:54,  9.00s/it] 98%|█████████▊| 5050/5155 [12:31:59<15:40,  8.96s/it]                                                      {'loss': '7.068e-06', 'grad_norm': '0.0001514', 'learning_rate': '2.574e-07', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '152.6', 'tokens/total': 82759680, 'tokens/trainable': 26197082, 'epoch': '4.9'}
+ 98%|█████████▊| 5050/5155 [12:31:59<15:40,  8.96s/it] 98%|█████████▊| 5051/5155 [12:32:08<15:28,  8.93s/it] 98%|█████████▊| 5052/5155 [12:32:17<15:16,  8.90s/it] 98%|█████████▊| 5053/5155 [12:32:26<15:19,  9.01s/it] 98%|█████████▊| 5054/5155 [12:32:35<15:05,  8.96s/it] 98%|█████████▊| 5055/5155 [12:32:44<14:53,  8.93s/it] 98%|█████████▊| 5056/5155 [12:32:53<14:41,  8.91s/it] 98%|█████████▊| 5057/5155 [12:33:02<14:30,  8.89s/it] 98%|█████████▊| 5058/5155 [12:33:11<14:34,  9.01s/it] 98%|█████████▊| 5059/5155 [12:33:20<14:20,  8.96s/it] 98%|█████████▊| 5060/5155 [12:33:29<14:08,  8.93s/it]                                                      {'loss': '2.741e-06', 'grad_norm': '0.002283', 'learning_rate': '2.112e-07', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '136.6', 'tokens/total': 82923520, 'tokens/trainable': 26248956, 'epoch': '4.91'}
+ 98%|█████████▊| 5060/5155 [12:33:29<14:08,  8.93s/it] 98%|█████████▊| 5061/5155 [12:33:38<13:57,  8.91s/it] 98%|█████████▊| 5062/5155 [12:33:47<13:58,  9.02s/it] 98%|█████████▊| 5063/5155 [12:33:56<13:45,  8.97s/it] 98%|█████████▊| 5064/5155 [12:34:05<13:33,  8.94s/it] 98%|█████████▊| 5065/5155 [12:34:13<13:21,  8.91s/it] 98%|█████████▊| 5066/5155 [12:34:23<13:22,  9.02s/it] 98%|█████████▊| 5067/5155 [12:34:32<13:09,  8.97s/it] 98%|█████████▊| 5068/5155 [12:34:40<12:57,  8.94s/it] 98%|█████████▊| 5069/5155 [12:34:49<12:46,  8.91s/it] 98%|█████████▊| 5070/5155 [12:34:58<12:34,  8.88s/it]                                                      {'loss': '9.641e-07', 'grad_norm': '3.349e-05', 'learning_rate': '1.695e-07', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '156.8', 'tokens/total': 83087360, 'tokens/trainable': 26300852, 'epoch': '4.919'}
+ 98%|█████████▊| 5070/5155 [12:34:58<12:34,  8.88s/it] 98%|█████████▊| 5071/5155 [12:35:07<12:35,  8.99s/it] 98%|█████████▊| 5072/5155 [12:35:16<12:23,  8.95s/it] 98%|█████████▊| 5073/5155 [12:35:25<12:11,  8.92s/it] 98%|█████████▊| 5074/5155 [12:35:34<12:00,  8.89s/it] 98%|█████████▊| 5075/5155 [12:35:43<12:00,  9.00s/it] 98%|█████████▊| 5076/5155 [12:35:52<11:47,  8.96s/it] 98%|█████████▊| 5077/5155 [12:36:01<11:36,  8.93s/it] 99%|█████████▊| 5078/5155 [12:36:10<11:25,  8.90s/it] 99%|█████████▊| 5079/5155 [12:36:19<11:15,  8.89s/it] 99%|█████████▊| 5080/5155 [12:36:28<11:14,  9.00s/it]                                                      {'loss': '5.619e-07', 'grad_norm': '1.163e-05', 'learning_rate': '1.324e-07', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '142.4', 'tokens/total': 83251200, 'tokens/trainable': 26352692, 'epoch': '4.929'}
+ 99%|█████████▊| 5080/5155 [12:36:28<11:14,  9.00s/it] 99%|█████████▊| 5081/5155 [12:36:37<11:03,  8.96s/it] 99%|█████████▊| 5082/5155 [12:36:45<10:51,  8.93s/it] 99%|█████████▊| 5083/5155 [12:36:54<10:40,  8.90s/it] 99%|█████████▊| 5084/5155 [12:37:04<10:39,  9.01s/it] 99%|█████████▊| 5085/5155 [12:37:12<10:27,  8.96s/it] 99%|█████████▊| 5086/5155 [12:37:21<10:16,  8.93s/it] 99%|█████████▊| 5087/5155 [12:37:30<10:04,  8.90s/it] 99%|█████████▊| 5088/5155 [12:37:39<09:55,  8.88s/it] 99%|█████████▊| 5089/5155 [12:37:48<09:53,  8.99s/it] 99%|█████████▊| 5090/5155 [12:37:57<09:41,  8.95s/it]                                                      {'loss': '1.802e-06', 'grad_norm': '0.001424', 'learning_rate': '9.983e-08', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '141.7', 'tokens/total': 83415040, 'tokens/trainable': 26404558, 'epoch': '4.939'}
+ 99%|█████████▊| 5090/5155 [12:37:57<09:41,  8.95s/it] 99%|█████████▉| 5091/5155 [12:38:06<09:30,  8.91s/it] 99%|█████████▉| 5092/5155 [12:38:15<09:20,  8.90s/it] 99%|█████████▉| 5093/5155 [12:38:24<09:18,  9.00s/it] 99%|█████████▉| 5094/5155 [12:38:33<09:06,  8.96s/it] 99%|█████████▉| 5095/5155 [12:38:42<08:55,  8.92s/it] 99%|█████████▉| 5096/5155 [12:38:51<08:45,  8.90s/it] 99%|█████████▉| 5097/5155 [12:38:59<08:35,  8.89s/it] 99%|█████████▉| 5098/5155 [12:39:09<08:33,  9.00s/it] 99%|█████████▉| 5099/5155 [12:39:18<08:21,  8.95s/it] 99%|█████████▉| 5100/5155 [12:39:26<08:10,  8.93s/it]                                                      {'loss': '1.725e-06', 'grad_norm': '6.838e-05', 'learning_rate': '7.187e-08', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '143.8', 'tokens/total': 83578880, 'tokens/trainable': 26456808, 'epoch': '4.948'}
+ 99%|█████████▉| 5100/5155 [12:39:26<08:10,  8.93s/it] 99%|█████████▉| 5101/5155 [12:39:35<08:00,  8.90s/it] 99%|█████████▉| 5102/5155 [12:39:44<07:57,  9.01s/it] 99%|█████████▉| 5103/5155 [12:39:53<07:45,  8.96s/it] 99%|█████████▉| 5104/5155 [12:40:02<07:35,  8.93s/it] 99%|█████████▉| 5105/5155 [12:40:11<07:25,  8.90s/it] 99%|█████████▉| 5106/5155 [12:40:20<07:15,  8.88s/it] 99%|█████████▉| 5107/5155 [12:40:29<07:11,  8.99s/it] 99%|█████████▉| 5108/5155 [12:40:38<07:00,  8.95s/it] 99%|█████████▉| 5109/5155 [12:40:47<06:50,  8.92s/it] 99%|█████████▉| 5110/5155 [12:40:56<06:40,  8.90s/it]                                                      {'loss': '1.819e-06', 'grad_norm': '4.378e-06', 'learning_rate': '4.85e-08', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '146.3', 'tokens/total': 83742720, 'tokens/trainable': 26508742, 'epoch': '4.958'}
+ 99%|█████████▉| 5110/5155 [12:40:56<06:40,  8.90s/it] 99%|█████████▉| 5111/5155 [12:41:05<06:36,  9.00s/it] 99%|█████████▉| 5112/5155 [12:41:14<06:25,  8.96s/it] 99%|█████████▉| 5113/5155 [12:41:23<06:14,  8.93s/it] 99%|█████████▉| 5114/5155 [12:41:31<06:05,  8.91s/it] 99%|█████████▉| 5115/5155 [12:41:40<05:55,  8.89s/it] 99%|█████████▉| 5116/5155 [12:41:50<05:51,  9.00s/it] 99%|█████████▉| 5117/5155 [12:41:58<05:40,  8.96s/it] 99%|█████████▉| 5118/5155 [12:42:07<05:30,  8.92s/it] 99%|█████████▉| 5119/5155 [12:42:16<05:20,  8.89s/it] 99%|█████████▉| 5120/5155 [12:42:25<05:10,  8.88s/it]                                                      {'loss': '2.324e-06', 'grad_norm': '0.0006646', 'learning_rate': '2.97e-08', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '137.3', 'tokens/total': 83906560, 'tokens/trainable': 26560812, 'epoch': '4.968'}
+ 99%|█████████▉| 5120/5155 [12:42:25<05:10,  8.88s/it] 99%|█████████▉| 5121/5155 [12:42:34<05:06,  9.00s/it] 99%|█████████▉| 5122/5155 [12:42:43<04:55,  8.95s/it] 99%|█████████▉| 5123/5155 [12:42:52<04:45,  8.92s/it] 99%|█████████▉| 5124/5155 [12:43:01<04:35,  8.90s/it] 99%|█████████▉| 5125/5155 [12:43:10<04:30,  9.01s/it] 99%|█████████▉| 5126/5155 [12:43:19<04:20,  8.97s/it] 99%|█████████▉| 5127/5155 [12:43:28<04:09,  8.92s/it] 99%|█████████▉| 5128/5155 [12:43:37<04:00,  8.90s/it] 99%|█████████▉| 5129/5155 [12:43:46<03:54,  9.01s/it]100%|█████████▉| 5130/5155 [12:43:55<03:43,  8.95s/it]                                                      {'loss': '1.299e-06', 'grad_norm': '2.278e-05', 'learning_rate': '1.549e-08', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '138.6', 'tokens/total': 84070400, 'tokens/trainable': 26612330, 'epoch': '4.977'}
+100%|█████████▉| 5130/5155 [12:43:55<03:43,  8.95s/it]100%|█████████▉| 5131/5155 [12:44:03<03:34,  8.92s/it]100%|█████████▉| 5132/5155 [12:44:12<03:24,  8.90s/it]100%|█████████▉| 5133/5155 [12:44:21<03:15,  8.89s/it]100%|█████████▉| 5134/5155 [12:44:30<03:08,  9.00s/it]100%|█████████▉| 5135/5155 [12:44:39<02:58,  8.95s/it]100%|█████████▉| 5136/5155 [12:44:48<02:49,  8.92s/it]100%|█████████▉| 5137/5155 [12:44:57<02:40,  8.90s/it]100%|█████████▉| 5138/5155 [12:45:06<02:33,  9.01s/it]100%|█████████▉| 5139/5155 [12:45:15<02:23,  8.95s/it]100%|█████████▉| 5140/5155 [12:45:24<02:13,  8.92s/it]                                                      {'loss': '2.734e-06', 'grad_norm': '0.0001806', 'learning_rate': '5.868e-09', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '151.9', 'tokens/total': 84234240, 'tokens/trainable': 26664222, 'epoch': '4.987'}
+100%|█████████▉| 5140/5155 [12:45:24<02:13,  8.92s/it]100%|█████████▉| 5141/5155 [12:45:33<02:04,  8.90s/it]100%|█████████▉| 5142/5155 [12:45:42<01:55,  8.88s/it]100%|█████████▉| 5143/5155 [12:45:51<01:47,  8.99s/it]100%|█████████▉| 5144/5155 [12:46:00<01:38,  8.95s/it]100%|█████████▉| 5145/5155 [12:46:09<01:29,  8.92s/it]100%|█████████▉| 5146/5155 [12:46:17<01:20,  8.90s/it]100%|█████████▉| 5147/5155 [12:46:27<01:11,  9.00s/it]100%|█████████▉| 5148/5155 [12:46:35<01:02,  8.96s/it]100%|█████████▉| 5149/5155 [12:46:44<00:53,  8.92s/it]100%|█████████▉| 5150/5155 [12:46:53<00:44,  8.90s/it]                                                      {'loss': '1.249e-05', 'grad_norm': '1.954e-05', 'learning_rate': '8.252e-10', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'tokens/train_per_sec_per_gpu': '137', 'tokens/total': 84398080, 'tokens/trainable': 26716034, 'epoch': '4.997'}
+100%|█████████▉| 5150/5155 [12:46:53<00:44,  8.90s/it]100%|█████████▉| 5151/5155 [12:47:02<00:35,  8.89s/it]100%|█████████▉| 5152/5155 [12:47:11<00:27,  9.00s/it]100%|█████████▉| 5153/5155 [12:47:20<00:17,  8.95s/it]100%|█████████▉| 5154/5155 [12:47:22<00:06,  6.95s/it]                                                      {'train_runtime': '4.605e+04', 'train_samples_per_second': '0.896', 'train_steps_per_second': '0.112', 'train_loss': '0.005821', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '20.01', 'epoch': '5', 'tokens/train_per_sec_per_gpu': '594.3'}
+100%|█████████▉| 5154/5155 [12:47:22<00:06,  6.95s/it]100%|█████████▉| 5154/5155 [12:47:22<00:08,  8.93s/it]
+[2026-02-26 12:08:09,419] [INFO] [axolotl.train.save_trained_model:226] [PID:2758243] Training completed! Saving trained model to /home/jiaruil5/math_rl/mix_teachers/r3lit_rl/mix_teachers/checkpoints/math_operations/primitive_atomic_balanced_sft_50k.
+[2026-02-26 12:08:10,203] [INFO] [axolotl.train.save_trained_model:340] [PID:2758243] Model successfully saved to /home/jiaruil5/math_rl/mix_teachers/r3lit_rl/mix_teachers/checkpoints/math_operations/primitive_atomic_balanced_sft_50k