diff --git "a/checkpoints/math_operations/lora_sft_primitive_atomic_50k_t20260305/debug.log" "b/checkpoints/math_operations/lora_sft_primitive_atomic_50k_t20260305/debug.log"
new file mode 100644--- /dev/null
+++ "b/checkpoints/math_operations/lora_sft_primitive_atomic_50k_t20260305/debug.log"
@@ -0,0 +1,1298 @@
+[2026-03-05 03:31:17,987] [DEBUG] [axolotl.utils.config.resolve_dtype:66] [PID:1482537] bf16 support detected, enabling for this configuration.
+[2026-03-05 03:31:17,991] [DEBUG] [axolotl.utils.config.log_gpu_memory_usage:127] [PID:1482537] baseline 0.000GB ()
+[2026-03-05 03:31:17,992] [INFO] [axolotl.cli.config.load_cfg:259] [PID:1482537] config:
+{
+  "activation_offloading": false,
+  "adapter": "lora",
+  "axolotl_config_path": "/home/jiaruil5/math_rl/mix_teachers/mix_teachers/train/math_operations_sft/configs/lora_primitive_atomic_50k.yaml",
+  "base_model": "/home/jiaruil5/math_rl/mix_teachers/r3lit_rl/models/Qwen/Qwen3-4B-Instruct-2507",
+  "base_model_config": "/home/jiaruil5/math_rl/mix_teachers/r3lit_rl/models/Qwen/Qwen3-4B-Instruct-2507",
+  "batch_size": 8,
+  "bf16": true,
+  "capabilities": {
+    "bf16": true,
+    "compute_capability": "sm_86",
+    "fp8": false,
+    "n_gpu": 1,
+    "n_node": 1
+  },
+  "chat_template": "chatml",
+  "context_parallel_size": 1,
+  "dataloader_num_workers": 1,
+  "dataloader_pin_memory": true,
+  "dataloader_prefetch_factor": 256,
+  "dataset_num_proc": 64,
+  "datasets": [
+    {
+      "message_property_mappings": {
+        "content": "content",
+        "role": "role"
+      },
+      "path": "/home/jiaruil5/math_rl/mix_teachers/r3lit_rl/mix_teachers/data/math_operations/primitive_atomic_balanced_sft_50k/balanced_train_alpaca.jsonl",
+      "trust_remote_code": false,
+      "type": "alpaca"
+    }
+  ],
+  "ddp": false,
+  "device": "cuda:0",
+  "device_map": "auto",
+  "dion_rank_fraction": 1.0,
+  "dion_rank_multiple_of": 1,
+  "eaft_alpha": 1.0,
+  "eaft_k": 20,
+  "env_capabilities": {
+    "torch_version": "2.8.0"
+  },
+  "eval_batch_size": 2,
+  "eval_causal_lm_metrics": [
+    "sacrebleu",
+    "comet",
+    "ter",
+    "chrf"
+  ],
+  "eval_max_new_tokens": 128,
+  "eval_sample_packing": true,
+  "eval_steps": 0.1,
+  "eval_table_size": 0,
+  "evals_per_epoch": 2,
+  "experimental_skip_move_to_device": true,
+  "flash_attention": true,
+  "fp16": false,
+  "gradient_accumulation_steps": 4,
+  "gradient_checkpointing": true,
+  "gradient_checkpointing_kwargs": {
+    "use_reentrant": false
+  },
+  "include_tkps": true,
+  "learning_rate": 0.0002,
+  "lisa_layers_attribute": "model.layers",
+  "load_best_model_at_end": true,
+  "load_in_4bit": false,
+  "load_in_8bit": false,
+  "local_rank": 0,
+  "logging_steps": 10,
+  "lora_alpha": 64,
+  "lora_dropout": 0.05,
+  "lora_r": 32,
+  "lora_target_linear": true,
+  "loraplus_lr_embedding": 1e-06,
+  "lr_scheduler": "cosine",
+  "mean_resizing_embeddings": false,
+  "micro_batch_size": 2,
+  "model_config_type": "qwen3",
+  "num_epochs": 5.0,
+  "optimizer": "adamw_torch_fused",
+  "otel_metrics_host": "localhost",
+  "otel_metrics_port": 8000,
+  "output_dir": "/home/jiaruil5/math_rl/mix_teachers/r3lit_rl/mix_teachers/checkpoints/math_operations/primitive_atomic_balanced_sft_50k_t20260305",
+  "pad_to_sequence_len": true,
+  "pretrain_multipack_attn": true,
+  "profiler_steps_start": 0,
+  "qlora_sharded_model_loading": false,
+  "ray_num_workers": 1,
+  "resources_per_worker": {
+    "GPU": 1
+  },
+  "sample_packing": true,
+  "sample_packing_bin_size": 200,
+  "sample_packing_group_size": 100000,
+  "save_only_model": false,
+  "save_safetensors": true,
+  "save_steps": 0.2,
+  "save_total_limit": 3,
+  "saves_per_epoch": 1,
+  "sequence_len": 2048,
+  "shuffle_before_merging_datasets": false,
+  "shuffle_merged_datasets": true,
+  "skip_prepare_dataset": false,
+  "streaming_multipack_buffer_size": 10000,
+  "strict": false,
+  "tensor_parallel_size": 1,
+  "test_datasets": [
+    {
+      "message_property_mappings": {
+        "content": "content",
+        "role": "role"
+      },
+      "path": "/home/jiaruil5/math_rl/mix_teachers/r3lit_rl/mix_teachers/data/math_operations/primitive_atomic_balanced_sft_50k/balanced_val_alpaca.jsonl",
+      "trust_remote_code": false,
+      "type": "alpaca"
+    }
+  ],
+  "tf32": true,
+  "tiled_mlp_use_original_mlp": true,
+  "tokenizer_config": "/home/jiaruil5/math_rl/mix_teachers/r3lit_rl/models/Qwen/Qwen3-4B-Instruct-2507",
+  "tokenizer_save_jinja_files": true,
+  "torch_dtype": "torch.bfloat16",
+  "train_on_inputs": false,
+  "trl": {
+    "log_completions": false,
+    "mask_truncated_completions": false,
+    "ref_model_mixup_alpha": 0.9,
+    "ref_model_sync_steps": 64,
+    "scale_rewards": true,
+    "sync_ref_model": false,
+    "use_vllm": false,
+    "vllm_server_host": "0.0.0.0",
+    "vllm_server_port": 8000
+  },
+  "use_otel_metrics": false,
+  "use_ray": false,
+  "use_wandb": true,
+  "val_set_size": 0.0,
+  "vllm": {
+    "device": "auto",
+    "dtype": "auto",
+    "gpu_memory_utilization": 0.9,
+    "host": "0.0.0.0",
+    "port": 8000
+  },
+  "wandb_log_model": "false",
+  "wandb_name": "qwen3-4b-primitive-atomic-balanced-lora-sft-50k-t20260305",
+  "wandb_project": "math_operations_sft",
+  "warmup_ratio": 0.1,
+  "weight_decay": 0.01,
+  "world_size": 1
+}
+[2026-03-05 03:31:19,300] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:285] [PID:1482537] EOS: 151645 / <|im_end|>
+[2026-03-05 03:31:19,300] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:286] [PID:1482537] BOS: None / None
+[2026-03-05 03:31:19,300] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:287] [PID:1482537] PAD: 151643 / <|endoftext|>
+[2026-03-05 03:31:19,300] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:288] [PID:1482537] UNK: None / None
+[2026-03-05 03:31:46,122] [INFO] [axolotl.utils.data.shared.load_preprocessed_dataset:481] [PID:1482537] Unable to find prepared dataset in last_run_prepared/c5b2dcf69e91df42a1bb115dcc61090d
+[2026-03-05 03:31:46,122] [INFO] [axolotl.utils.data.sft._load_raw_datasets:320] [PID:1482537] Loading raw datasets...
+[2026-03-05 03:31:46,123] [WARNING] [axolotl.utils.data.sft._load_raw_datasets:322] [PID:1482537] Processing datasets during training can lead to VRAM instability. Please pre-process your dataset using `axolotl preprocess path/to/config.yml`.
+[2026-03-05 03:31:46,283] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:1482537] Loading dataset: /home/jiaruil5/math_rl/mix_teachers/r3lit_rl/mix_teachers/data/math_operations/primitive_atomic_balanced_sft_50k/balanced_train_alpaca.jsonl with base_type: alpaca and prompt_style: None
+[2026-03-05 03:31:48,196] [INFO] [axolotl.utils.data.utils.handle_long_seq_in_dataset:224] [PID:1482537] min_input_len: 257
+[2026-03-05 03:31:48,197] [INFO] [axolotl.utils.data.utils.handle_long_seq_in_dataset:226] [PID:1482537] max_input_len: 371
+Dropping Long Sequences (>2048) (num_proc=64):   0%|          | 0/50000 [00:00<?, ? examples/s]Dropping Long Sequences (>2048) (num_proc=64):   2%|▏         | 782/50000 [00:01<01:59, 413.49 examples/s]Dropping Long Sequences (>2048) (num_proc=64):   5%|▍         | 2346/50000 [00:02<00:33, 1435.97 examples/s]Dropping Long Sequences (>2048) (num_proc=64):  11%|█         | 5474/50000 [00:02<00:11, 3987.72 examples/s]Dropping Long Sequences (>2048) (num_proc=64):  14%|█▍        | 7038/50000 [00:02<00:08, 5015.87 examples/s]Dropping Long Sequences (>2048) (num_proc=64):  17%|█▋        | 8602/50000 [00:02<00:06, 6116.95 examples/s]Dropping Long Sequences (>2048) (num_proc=64):  25%|██▌       | 12510/50000 [00:02<00:03, 9773.68 examples/s]Dropping Long Sequences (>2048) (num_proc=64):  31%|███▏      | 15634/50000 [00:02<00:02, 12960.72 examples/s]Dropping Long Sequences (>2048) (num_proc=64):  36%|███▌      | 17977/50000 [00:02<00:02, 12661.00 examples/s]Dropping Long Sequences (>2048) (num_proc=64):  50%|█████     | 25008/50000 [00:03<00:01, 22659.90 examples/s]Dropping Long Sequences (>2048) (num_proc=64):  61%|██████    | 30475/50000 [00:03<00:00, 28999.45 examples/s]Dropping Long Sequences (>2048) (num_proc=64): 100%|██████████| 50000/50000 [00:03<00:00, 66194.93 examples/s]Dropping Long Sequences (>2048) (num_proc=64): 100%|██████████| 50000/50000 [00:03<00:00, 13363.85 examples/s]
+Drop Samples with Zero Trainable Tokens (num_proc=64):   0%|          | 0/50000 [00:00<?, ? examples/s]Drop Samples with Zero Trainable Tokens (num_proc=64):   2%|▏         | 782/50000 [00:01<01:50, 444.54 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=64):   5%|▍         | 2346/50000 [00:01<00:30, 1583.97 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=64):  11%|█         | 5474/50000 [00:02<00:10, 4252.61 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=64):  19%|█▉        | 9384/50000 [00:02<00:05, 7489.22 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=64):  27%|██▋       | 13291/50000 [00:02<00:03, 11363.39 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=64):  31%|███▏      | 15636/50000 [00:02<00:02, 11992.72 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=64):  36%|███▌      | 17979/50000 [00:02<00:02, 13063.27 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=64):  42%|████▏     | 21103/50000 [00:02<00:01, 15679.59 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=64):  52%|█████▏    | 25789/50000 [00:02<00:01, 21898.56 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=64):  59%|█████▉    | 29694/50000 [00:02<00:00, 24397.87 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=64):  66%|██████▌   | 32818/50000 [00:03<00:00, 21513.98 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=64):  73%|███████▎  | 36723/50000 [00:03<00:00, 25198.03 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=64):  86%|████████▌ | 42971/50000 [00:03<00:00, 33176.79 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=64): 100%|██████████| 50000/50000 [00:03<00:00, 12562.77 examples/s]
+Add position_id column (Sample Packing) (num_proc=64):   0%|          | 0/50000 [00:00<?, ? examples/s]Add position_id column (Sample Packing) (num_proc=64):   2%|▏         | 782/50000 [00:02<02:54, 282.75 examples/s]Add position_id column (Sample Packing) (num_proc=64):   3%|▎         | 1564/50000 [00:03<01:29, 540.78 examples/s]Add position_id column (Sample Packing) (num_proc=64):   8%|▊         | 3910/50000 [00:03<00:25, 1795.15 examples/s]Add position_id column (Sample Packing) (num_proc=64):  11%|█         | 5473/50000 [00:03<00:15, 2784.51 examples/s]Add position_id column (Sample Packing) (num_proc=64):  17%|█▋        | 8600/50000 [00:03<00:07, 5371.10 examples/s]Add position_id column (Sample Packing) (num_proc=64):  22%|██▏       | 10944/50000 [00:03<00:05, 7317.81 examples/s]Add position_id column (Sample Packing) (num_proc=64):  30%|██▉       | 14851/50000 [00:03<00:03, 11205.32 examples/s]Add position_id column (Sample Packing) (num_proc=64):  36%|███▌      | 17977/50000 [00:04<00:02, 13549.87 examples/s]Add position_id column (Sample Packing) (num_proc=64):  45%|████▌     | 22665/50000 [00:04<00:01, 19043.19 examples/s]Add position_id column (Sample Packing) (num_proc=64):  70%|███████   | 35161/50000 [00:04<00:00, 39967.87 examples/s]Add position_id column (Sample Packing) (num_proc=64): 100%|██████████| 50000/50000 [00:04<00:00, 63059.42 examples/s]Add position_id column (Sample Packing) (num_proc=64): 100%|██████████| 50000/50000 [00:04<00:00, 10351.86 examples/s]
+Saving the dataset (0/64 shards):   0%|          | 0/50000 [00:00<?, ? examples/s]Saving the dataset (0/64 shards):   2%|▏         | 782/50000 [00:01<01:53, 432.64 examples/s]Saving the dataset (1/64 shards):   5%|▍         | 2346/50000 [00:01<01:50, 432.64 examples/s]Saving the dataset (2/64 shards):   8%|▊         | 3910/50000 [00:01<01:46, 432.64 examples/s]Saving the dataset (3/64 shards):   8%|▊         | 3910/50000 [00:01<01:46, 432.64 examples/s]Saving the dataset (4/64 shards):   8%|▊         | 3910/50000 [00:01<01:46, 432.64 examples/s]Saving the dataset (5/64 shards):   8%|▊         | 3910/50000 [00:01<01:46, 432.64 examples/s]Saving the dataset (6/64 shards):  11%|█         | 5474/50000 [00:01<01:42, 432.64 examples/s]Saving the dataset (7/64 shards):  11%|█         | 5474/50000 [00:01<01:42, 432.64 examples/s]Saving the dataset (8/64 shards):  13%|█▎        | 6256/50000 [00:01<01:41, 432.64 examples/s]Saving the dataset (9/64 shards):  16%|█▌        | 7820/50000 [00:01<01:37, 432.64 examples/s]Saving the dataset (10/64 shards):  16%|█▌        | 7820/50000 [00:01<01:37, 432.64 examples/s]Saving the dataset (11/64 shards):  19%|█▉        | 9384/50000 [00:01<01:33, 432.64 examples/s]Saving the dataset (12/64 shards):  20%|██        | 10166/50000 [00:01<01:32, 432.64 examples/s]Saving the dataset (13/64 shards):  20%|██        | 10166/50000 [00:01<01:32, 432.64 examples/s]Saving the dataset (14/64 shards):  23%|██▎       | 11730/50000 [00:01<01:28, 432.64 examples/s]Saving the dataset (15/64 shards):  23%|██▎       | 11730/50000 [00:01<01:28, 432.64 examples/s]Saving the dataset (16/64 shards):  25%|██▌       | 12512/50000 [00:01<01:26, 432.64 examples/s]Saving the dataset (17/64 shards):  28%|██▊       | 14074/50000 [00:01<01:23, 432.64 examples/s]Saving the dataset (18/64 shards):  28%|██▊       | 14074/50000 [00:01<01:23, 432.64 examples/s]Saving the dataset (19/64 shards):  30%|██▉       | 14855/50000 [00:01<01:21, 432.64 examples/s]Saving the dataset (20/64 shards):  31%|███▏      | 15636/50000 [00:01<01:19, 432.64 examples/s]Saving the dataset (21/64 shards):  34%|███▍      | 17198/50000 [00:01<01:15, 432.64 examples/s]Saving the dataset (22/64 shards):  34%|███▍      | 17198/50000 [00:01<01:15, 432.64 examples/s]Saving the dataset (23/64 shards):  36%|███▌      | 17979/50000 [00:01<01:14, 432.64 examples/s]Saving the dataset (24/64 shards):  39%|███▉      | 19541/50000 [00:01<01:10, 432.64 examples/s]Saving the dataset (25/64 shards):  39%|███▉      | 19541/50000 [00:01<01:10, 432.64 examples/s]Saving the dataset (26/64 shards):  42%|████▏     | 21103/50000 [00:01<01:06, 432.64 examples/s]Saving the dataset (27/64 shards):  42%|████▏     | 21103/50000 [00:01<01:06, 432.64 examples/s]Saving the dataset (28/64 shards):  44%|████▍     | 21884/50000 [00:01<01:04, 432.64 examples/s]Saving the dataset (29/64 shards):  48%|████▊     | 24227/50000 [00:01<00:59, 432.64 examples/s]Saving the dataset (30/64 shards):  48%|████▊     | 24227/50000 [00:01<00:59, 432.64 examples/s]Saving the dataset (31/64 shards):  48%|████▊     | 24227/50000 [00:01<00:59, 432.64 examples/s]Saving the dataset (32/64 shards):  53%|█████▎    | 26570/50000 [00:01<00:54, 432.64 examples/s]Saving the dataset (33/64 shards):  53%|█████▎    | 26570/50000 [00:01<00:54, 432.64 examples/s]Saving the dataset (34/64 shards):  56%|█████▋    | 28132/50000 [00:01<00:50, 432.64 examples/s]Saving the dataset (35/64 shards):  56%|█████▋    | 28132/50000 [00:01<00:50, 432.64 examples/s]Saving the dataset (36/64 shards):  58%|█████▊    | 28913/50000 [00:01<00:48, 432.64 examples/s]Saving the dataset (37/64 shards):  58%|█████▊    | 28913/50000 [00:01<00:48, 432.64 examples/s]Saving the dataset (38/64 shards):  61%|██████    | 30475/50000 [00:01<00:45, 432.64 examples/s]Saving the dataset (39/64 shards):  63%|██████▎   | 31256/50000 [00:01<00:43, 432.64 examples/s]Saving the dataset (40/64 shards):  64%|██████▍   | 32037/50000 [00:01<00:41, 432.64 examples/s]Saving the dataset (41/64 shards):  66%|██████▌   | 32818/50000 [00:01<00:39, 432.64 examples/s]Saving the dataset (42/64 shards):  66%|██████▌   | 32818/50000 [00:01<00:39, 432.64 examples/s]Saving the dataset (43/64 shards):  67%|██████▋   | 33599/50000 [00:01<00:37, 432.64 examples/s]Saving the dataset (44/64 shards):  69%|██████▉   | 34380/50000 [00:01<00:36, 432.64 examples/s]Saving the dataset (45/64 shards):  73%|███████▎  | 36723/50000 [00:01<00:30, 432.64 examples/s]Saving the dataset (46/64 shards):  73%|███████▎  | 36723/50000 [00:01<00:30, 432.64 examples/s]Saving the dataset (47/64 shards):  75%|███████▌  | 37504/50000 [00:01<00:28, 432.64 examples/s]Saving the dataset (48/64 shards):  75%|███████▌  | 37504/50000 [00:01<00:28, 432.64 examples/s]Saving the dataset (49/64 shards):  78%|███████▊  | 39066/50000 [00:01<00:25, 432.64 examples/s]Saving the dataset (50/64 shards):  78%|███████▊  | 39066/50000 [00:01<00:25, 432.64 examples/s]Saving the dataset (51/64 shards):  80%|███████▉  | 39847/50000 [00:01<00:23, 432.64 examples/s]Saving the dataset (52/64 shards):  83%|████████▎ | 41409/50000 [00:01<00:19, 432.64 examples/s]Saving the dataset (53/64 shards):  84%|████████▍ | 42190/50000 [00:01<00:18, 432.64 examples/s]Saving the dataset (54/64 shards):  84%|████████▍ | 42190/50000 [00:01<00:18, 432.64 examples/s]Saving the dataset (55/64 shards):  86%|████████▌ | 42971/50000 [00:01<00:16, 432.64 examples/s]Saving the dataset (56/64 shards):  89%|████████▉ | 44533/50000 [00:01<00:12, 432.64 examples/s]Saving the dataset (57/64 shards):  89%|████████▉ | 44533/50000 [00:01<00:12, 432.64 examples/s]Saving the dataset (58/64 shards):  95%|█████████▌| 47657/50000 [00:01<00:05, 432.64 examples/s]Saving the dataset (59/64 shards):  95%|█████████▌| 47657/50000 [00:01<00:05, 432.64 examples/s]Saving the dataset (60/64 shards):  95%|█████████▌| 47657/50000 [00:01<00:05, 432.64 examples/s]Saving the dataset (61/64 shards):  97%|█████████▋| 48438/50000 [00:01<00:03, 432.64 examples/s]Saving the dataset (62/64 shards):  97%|█████████▋| 48438/50000 [00:01<00:03, 432.64 examples/s]Saving the dataset (63/64 shards): 100%|██████████| 50000/50000 [00:01<00:00, 432.64 examples/s]Saving the dataset (64/64 shards): 100%|██████████| 50000/50000 [00:01<00:00, 432.64 examples/s]Saving the dataset (64/64 shards): 100%|██████████| 50000/50000 [00:01<00:00, 25808.63 examples/s]
+[2026-03-05 03:32:03,535] [INFO] [axolotl.utils.data.shared.load_preprocessed_dataset:481] [PID:1482537] Unable to find prepared dataset in last_run_prepared/6ef0c0270a5f2e04de2b8e4deededd5a
+[2026-03-05 03:32:03,535] [INFO] [axolotl.utils.data.sft._load_raw_datasets:320] [PID:1482537] Loading raw datasets...
+[2026-03-05 03:32:03,535] [WARNING] [axolotl.utils.data.sft._load_raw_datasets:322] [PID:1482537] Processing datasets during training can lead to VRAM instability. Please pre-process your dataset using `axolotl preprocess path/to/config.yml`.
+[2026-03-05 03:32:03,664] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:1482537] Loading dataset: /home/jiaruil5/math_rl/mix_teachers/r3lit_rl/mix_teachers/data/math_operations/primitive_atomic_balanced_sft_50k/balanced_val_alpaca.jsonl with base_type: alpaca and prompt_style: None
+[2026-03-05 03:32:05,716] [INFO] [axolotl.utils.data.utils.handle_long_seq_in_dataset:224] [PID:1482537] min_input_len: 281
+[2026-03-05 03:32:05,717] [INFO] [axolotl.utils.data.utils.handle_long_seq_in_dataset:226] [PID:1482537] max_input_len: 367
+Dropping Long Sequences (>2048) (num_proc=64):   0%|          | 0/200 [00:00<?, ? examples/s]Dropping Long Sequences (>2048) (num_proc=64):   2%|▏         | 4/200 [00:01<01:11,  2.74 examples/s]Dropping Long Sequences (>2048) (num_proc=64):  19%|█▉        | 38/200 [00:01<00:05, 31.66 examples/s]Dropping Long Sequences (>2048) (num_proc=64):  37%|███▋      | 74/200 [00:01<00:01, 66.57 examples/s]Dropping Long Sequences (>2048) (num_proc=64):  74%|███████▍  | 149/200 [00:01<00:00, 157.42 examples/s]Dropping Long Sequences (>2048) (num_proc=64): 100%|██████████| 200/200 [00:02<00:00, 86.36 examples/s] 
+Drop Samples with Zero Trainable Tokens (num_proc=64):   0%|          | 0/200 [00:00<?, ? examples/s]Drop Samples with Zero Trainable Tokens (num_proc=64):   2%|▏         | 4/200 [00:01<01:26,  2.27 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=64):  10%|█         | 20/200 [00:01<00:12, 14.02 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=64):  25%|██▌       | 50/200 [00:01<00:03, 41.44 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=64):  36%|███▌      | 71/200 [00:02<00:02, 58.82 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=64):  46%|████▌     | 92/200 [00:02<00:01, 80.01 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=64):  56%|█████▋    | 113/200 [00:02<00:00, 98.98 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=64): 100%|██████████| 200/200 [00:02<00:00, 69.04 examples/s]
+Add position_id column (Sample Packing) (num_proc=64):   0%|          | 0/200 [00:00<?, ? examples/s]Add position_id column (Sample Packing) (num_proc=64):   2%|▏         | 4/200 [00:01<01:23,  2.33 examples/s]Add position_id column (Sample Packing) (num_proc=64):  22%|██▏       | 44/200 [00:01<00:04, 32.21 examples/s]Add position_id column (Sample Packing) (num_proc=64):  32%|███▎      | 65/200 [00:01<00:02, 48.38 examples/s]Add position_id column (Sample Packing) (num_proc=64):  74%|███████▍  | 149/200 [00:02<00:00, 142.31 examples/s]Add position_id column (Sample Packing) (num_proc=64): 100%|██████████| 200/200 [00:02<00:00, 77.41 examples/s] 
+Saving the dataset (0/1 shards):   0%|          | 0/200 [00:00<?, ? examples/s]Saving the dataset (0/1 shards): 100%|██████████| 200/200 [00:00<00:00, 1589.25 examples/s]Saving the dataset (1/1 shards): 100%|██████████| 200/200 [00:00<00:00, 1589.25 examples/s]Saving the dataset (1/1 shards): 100%|██████████| 200/200 [00:00<00:00, 925.14 examples/s] 
+[2026-03-05 03:32:14,252] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:417] [PID:1482537] total_num_tokens: 64_780
+[2026-03-05 03:32:14,255] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:435] [PID:1482537] `total_supervised_tokens: 21_095`
+[2026-03-05 03:32:14,273] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:1482537] Using single process for pack_parallel, running sequentially.
+[2026-03-05 03:32:15,042] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:1482537] Using single process for pack_parallel, running sequentially.
+[2026-03-05 03:32:15,263] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.22135686874389648
+[2026-03-05 03:32:15,263] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:1482537] Using single process for pack_parallel, running sequentially.
+[2026-03-05 03:32:15,507] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.24388718605041504
+[2026-03-05 03:32:15,508] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:1482537] Using single process for pack_parallel, running sequentially.
+[2026-03-05 03:32:15,733] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.22558832168579102
+[2026-03-05 03:32:15,733] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:1482537] Using single process for pack_parallel, running sequentially.
+[2026-03-05 03:32:15,952] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.21867942810058594
+[2026-03-05 03:32:16,006] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:1482537] gather_len_batches: [17]
+[2026-03-05 03:32:16,007] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:494] [PID:1482537] data_loader_len: 4
+[2026-03-05 03:32:16,007] [INFO] [axolotl.utils.trainer.calc_sample_packing_eff_est:510] [PID:1482537] sample_packing_eff_est across ranks: [0.9303193933823529]
+[2026-03-05 03:32:16,007] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:522] [PID:1482537] sample_packing_eff_est: None
+[2026-03-05 03:32:16,007] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:533] [PID:1482537] total_num_steps: 20
+[2026-03-05 03:32:16,073] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:417] [PID:1482537] total_num_tokens: 16_272_381
+[2026-03-05 03:32:16,446] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:435] [PID:1482537] `total_supervised_tokens: 5_346_651`
+[2026-03-05 03:32:17,044] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:1482537] Using single process for pack_parallel, running sequentially.
+[2026-03-05 03:32:17,634] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:1482537] Using single process for pack_parallel, running sequentially.
+[2026-03-05 03:32:18,187] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.5756392478942871
+[2026-03-05 03:32:18,211] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:1482537] Using single process for pack_parallel, running sequentially.
+[2026-03-05 03:32:18,821] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.6331191062927246
+[2026-03-05 03:32:18,832] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:1482537] Using single process for pack_parallel, running sequentially.
+[2026-03-05 03:32:19,332] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.5096464157104492
+[2026-03-05 03:32:19,342] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:1482537] Using single process for pack_parallel, running sequentially.
+[2026-03-05 03:32:19,766] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.4327361583709717
+[2026-03-05 03:32:19,766] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:1482537] gather_len_batches: [4123]
+[2026-03-05 03:32:19,766] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:494] [PID:1482537] data_loader_len: 1030
+[2026-03-05 03:32:19,766] [INFO] [axolotl.utils.trainer.calc_sample_packing_eff_est:510] [PID:1482537] sample_packing_eff_est across ranks: [0.9630907315340909]
+[2026-03-05 03:32:19,767] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:522] [PID:1482537] sample_packing_eff_est: 0.97
+[2026-03-05 03:32:19,767] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:533] [PID:1482537] total_num_steps: 5150
+[2026-03-05 03:32:19,768] [INFO] [axolotl.utils.data.sft._prepare_standard_dataset:121] [PID:1482537] Maximum number of steps set at 5150
+[2026-03-05 03:32:19,835] [DEBUG] [axolotl.train.setup_model_and_tokenizer:70] [PID:1482537] loading tokenizer... /home/jiaruil5/math_rl/mix_teachers/r3lit_rl/models/Qwen/Qwen3-4B-Instruct-2507
+[2026-03-05 03:32:21,039] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:285] [PID:1482537] EOS: 151645 / <|im_end|>
+[2026-03-05 03:32:21,039] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:286] [PID:1482537] BOS: None / None
+[2026-03-05 03:32:21,039] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:287] [PID:1482537] PAD: 151643 / <|endoftext|>
+[2026-03-05 03:32:21,039] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:288] [PID:1482537] UNK: None / None
+[2026-03-05 03:32:21,039] [DEBUG] [axolotl.train.setup_model_and_tokenizer:82] [PID:1482537] Loading model
+[2026-03-05 03:32:21,051] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_evaluation_loop:87] [PID:1482537] Patched Trainer.evaluation_loop with nanmean loss calculation
+[2026-03-05 03:32:21,052] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_maybe_log_save_evaluate:138] [PID:1482537] Patched Trainer._maybe_log_save_evaluate with nanmean loss calculation
+[2026-03-05 03:32:21,054] [INFO] [axolotl.loaders.patch_manager._apply_multipack_patches:346] [PID:1482537] Applying multipack dataloader patch for sample packing...
+Fetching 22 files:   0%|          | 0/22 [00:00<?, ?it/s]Fetching 22 files: 100%|██████████| 22/22 [00:00<00:00, 6305.07it/s]
+Loading weights:   0%|          | 0/398 [00:00<?, ?it/s]Loading weights:   0%|          | 1/398 [00:00<00:00, 11184.81it/s, Materializing param=model.embed_tokens.weight]Loading weights:   0%|          | 1/398 [00:00<00:00, 5817.34it/s, Materializing param=model.embed_tokens.weight] Loading weights:   1%|          | 2/398 [00:00<00:26, 15.18it/s, Materializing param=model.embed_tokens.weight]  Loading weights:   1%|          | 2/398 [00:00<00:26, 15.18it/s, Materializing param=model.layers.0.input_layernorm.weight]Loading weights:   1%|          | 2/398 [00:00<00:26, 15.18it/s, Materializing param=model.layers.0.input_layernorm.weight]Loading weights:   1%|          | 3/398 [00:00<00:26, 15.18it/s, Materializing param=model.layers.0.mlp.down_proj.weight]  Loading weights:   1%|          | 3/398 [00:00<00:26, 15.18it/s, Materializing param=model.layers.0.mlp.down_proj.weight]Loading weights:   1%|          | 4/398 [00:00<00:25, 15.18it/s, Materializing param=model.layers.0.mlp.gate_proj.weight]Loading weights:   1%|          | 4/398 [00:00<00:25, 15.18it/s, Materializing param=model.layers.0.mlp.gate_proj.weight]Loading weights:   1%|▏         | 5/398 [00:00<00:25, 15.18it/s, Materializing param=model.layers.0.mlp.up_proj.weight]  Loading weights:   1%|▏         | 5/398 [00:00<00:25, 15.18it/s, Materializing param=model.layers.0.mlp.up_proj.weight]Loading weights:   2%|▏         | 6/398 [00:00<00:25, 15.18it/s, Materializing param=model.layers.0.post_attention_layernorm.weight]Loading weights:   2%|▏         | 6/398 [00:00<00:25, 15.18it/s, Materializing param=model.layers.0.post_attention_layernorm.weight]Loading weights:   2%|▏         | 7/398 [00:00<00:25, 15.18it/s, Materializing param=model.layers.0.self_attn.k_norm.weight]        Loading weights:   2%|▏         | 7/398 [00:00<00:25, 15.18it/s, Materializing param=model.layers.0.self_attn.k_norm.weight]Loading weights:   2%|▏         | 8/398 [00:00<00:25, 15.18it/s, Materializing param=model.layers.0.self_attn.k_proj.weight]Loading weights:   2%|▏         | 8/398 [00:00<00:25, 15.18it/s, Materializing param=model.layers.0.self_attn.k_proj.weight]Loading weights:   2%|▏         | 9/398 [00:00<00:25, 15.18it/s, Materializing param=model.layers.0.self_attn.o_proj.weight]Loading weights:   2%|▏         | 9/398 [00:00<00:25, 15.18it/s, Materializing param=model.layers.0.self_attn.o_proj.weight]Loading weights:   3%|▎         | 10/398 [00:00<00:25, 15.18it/s, Materializing param=model.layers.0.self_attn.q_norm.weight]Loading weights:   3%|▎         | 10/398 [00:00<00:25, 15.18it/s, Materializing param=model.layers.0.self_attn.q_norm.weight]Loading weights:   3%|▎         | 11/398 [00:00<00:25, 15.18it/s, Materializing param=model.layers.0.self_attn.q_proj.weight]Loading weights:   3%|▎         | 11/398 [00:00<00:25, 15.18it/s, Materializing param=model.layers.0.self_attn.q_proj.weight]Loading weights:   3%|▎         | 12/398 [00:00<00:25, 15.18it/s, Materializing param=model.layers.0.self_attn.v_proj.weight]Loading weights:   3%|▎         | 12/398 [00:00<00:25, 15.18it/s, Materializing param=model.layers.0.self_attn.v_proj.weight]Loading weights:   3%|▎         | 13/398 [00:00<00:25, 15.18it/s, Materializing param=model.layers.1.input_layernorm.weight] Loading weights:   3%|▎         | 13/398 [00:00<00:25, 15.18it/s, Materializing param=model.layers.1.input_layernorm.weight]Loading weights:   4%|▎         | 14/398 [00:00<00:25, 15.18it/s, Materializing param=model.layers.1.mlp.down_proj.weight]  Loading weights:   4%|▎         | 14/398 [00:00<00:25, 15.18it/s, Materializing param=model.layers.1.mlp.down_proj.weight]Loading weights:   4%|▍         | 15/398 [00:00<00:25, 15.18it/s, Materializing param=model.layers.1.mlp.gate_proj.weight]Loading weights:   4%|▍         | 15/398 [00:00<00:25, 15.18it/s, Materializing param=model.layers.1.mlp.gate_proj.weight]Loading weights:   4%|▍         | 16/398 [00:00<00:25, 15.18it/s, Materializing param=model.layers.1.mlp.up_proj.weight]  Loading weights:   4%|▍         | 16/398 [00:00<00:25, 15.18it/s, Materializing param=model.layers.1.mlp.up_proj.weight]Loading weights:   4%|▍         | 17/398 [00:00<00:25, 15.18it/s, Materializing param=model.layers.1.post_attention_layernorm.weight]Loading weights:   4%|▍         | 17/398 [00:00<00:25, 15.18it/s, Materializing param=model.layers.1.post_attention_layernorm.weight]Loading weights:   5%|▍         | 18/398 [00:00<00:25, 15.18it/s, Materializing param=model.layers.1.self_attn.k_norm.weight]        Loading weights:   5%|▍         | 18/398 [00:00<00:25, 15.18it/s, Materializing param=model.layers.1.self_attn.k_norm.weight]Loading weights:   5%|▍         | 19/398 [00:00<00:24, 15.18it/s, Materializing param=model.layers.1.self_attn.k_proj.weight]Loading weights:   5%|▍         | 19/398 [00:00<00:24, 15.18it/s, Materializing param=model.layers.1.self_attn.k_proj.weight]Loading weights:   5%|▌         | 20/398 [00:00<00:24, 15.18it/s, Materializing param=model.layers.1.self_attn.o_proj.weight]Loading weights:   5%|▌         | 20/398 [00:00<00:24, 15.18it/s, Materializing param=model.layers.1.self_attn.o_proj.weight]Loading weights:   5%|▌         | 21/398 [00:00<00:24, 15.18it/s, Materializing param=model.layers.1.self_attn.q_norm.weight]Loading weights:   5%|▌         | 21/398 [00:00<00:24, 15.18it/s, Materializing param=model.layers.1.self_attn.q_norm.weight]Loading weights:   6%|▌         | 22/398 [00:00<00:24, 15.18it/s, Materializing param=model.layers.1.self_attn.q_proj.weight]Loading weights:   6%|▌         | 22/398 [00:00<00:24, 15.18it/s, Materializing param=model.layers.1.self_attn.q_proj.weight]Loading weights:   6%|▌         | 23/398 [00:00<00:24, 15.18it/s, Materializing param=model.layers.1.self_attn.v_proj.weight]Loading weights:   6%|▌         | 23/398 [00:00<00:24, 15.18it/s, Materializing param=model.layers.1.self_attn.v_proj.weight]Loading weights:   6%|▌         | 24/398 [00:00<00:24, 15.18it/s, Materializing param=model.layers.2.input_layernorm.weight] Loading weights:   6%|▌         | 24/398 [00:00<00:24, 15.18it/s, Materializing param=model.layers.2.input_layernorm.weight]Loading weights:   6%|▋         | 25/398 [00:00<00:24, 15.18it/s, Materializing param=model.layers.2.mlp.down_proj.weight]  Loading weights:   6%|▋         | 25/398 [00:00<00:24, 15.18it/s, Materializing param=model.layers.2.mlp.down_proj.weight]Loading weights:   7%|▋         | 26/398 [00:00<00:24, 15.18it/s, Materializing param=model.layers.2.mlp.gate_proj.weight]Loading weights:   7%|▋         | 26/398 [00:00<00:24, 15.18it/s, Materializing param=model.layers.2.mlp.gate_proj.weight]Loading weights:   7%|▋         | 27/398 [00:00<00:24, 15.18it/s, Materializing param=model.layers.2.mlp.up_proj.weight]  Loading weights:   7%|▋         | 27/398 [00:00<00:24, 15.18it/s, Materializing param=model.layers.2.mlp.up_proj.weight]Loading weights:   7%|▋         | 28/398 [00:00<00:24, 15.18it/s, Materializing param=model.layers.2.post_attention_layernorm.weight]Loading weights:   7%|▋         | 28/398 [00:00<00:24, 15.18it/s, Materializing param=model.layers.2.post_attention_layernorm.weight]Loading weights:   7%|▋         | 29/398 [00:00<00:24, 15.18it/s, Materializing param=model.layers.2.self_attn.k_norm.weight]        Loading weights:   7%|▋         | 29/398 [00:00<00:24, 15.18it/s, Materializing param=model.layers.2.self_attn.k_norm.weight]Loading weights:   8%|▊         | 30/398 [00:00<00:24, 15.18it/s, Materializing param=model.layers.2.self_attn.k_proj.weight]Loading weights:   8%|▊         | 30/398 [00:00<00:24, 15.18it/s, Materializing param=model.layers.2.self_attn.k_proj.weight]Loading weights:   8%|▊         | 31/398 [00:00<00:24, 15.18it/s, Materializing param=model.layers.2.self_attn.o_proj.weight]Loading weights:   8%|▊         | 31/398 [00:00<00:24, 15.18it/s, Materializing param=model.layers.2.self_attn.o_proj.weight]Loading weights:   8%|▊         | 32/398 [00:00<00:24, 15.18it/s, Materializing param=model.layers.2.self_attn.q_norm.weight]Loading weights:   8%|▊         | 32/398 [00:00<00:24, 15.18it/s, Materializing param=model.layers.2.self_attn.q_norm.weight]Loading weights:   8%|▊         | 33/398 [00:00<00:24, 15.18it/s, Materializing param=model.layers.2.self_attn.q_proj.weight]Loading weights:   8%|▊         | 33/398 [00:00<00:24, 15.18it/s, Materializing param=model.layers.2.self_attn.q_proj.weight]Loading weights:   9%|▊         | 34/398 [00:00<00:23, 15.18it/s, Materializing param=model.layers.2.self_attn.v_proj.weight]Loading weights:   9%|▊         | 34/398 [00:00<00:23, 15.18it/s, Materializing param=model.layers.2.self_attn.v_proj.weight]Loading weights:   9%|▉         | 35/398 [00:00<00:23, 15.18it/s, Materializing param=model.layers.3.input_layernorm.weight] Loading weights:   9%|▉         | 35/398 [00:00<00:23, 15.18it/s, Materializing param=model.layers.3.input_layernorm.weight]Loading weights:   9%|▉         | 36/398 [00:00<00:23, 15.18it/s, Materializing param=model.layers.3.mlp.down_proj.weight]  Loading weights:   9%|▉         | 36/398 [00:00<00:23, 15.18it/s, Materializing param=model.layers.3.mlp.down_proj.weight]Loading weights:   9%|▉         | 37/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.3.mlp.down_proj.weight]Loading weights:   9%|▉         | 37/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.3.mlp.gate_proj.weight]Loading weights:   9%|▉         | 37/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.3.mlp.gate_proj.weight]Loading weights:  10%|▉         | 38/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.3.mlp.up_proj.weight]  Loading weights:  10%|▉         | 38/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.3.mlp.up_proj.weight]Loading weights:  10%|▉         | 39/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.3.post_attention_layernorm.weight]Loading weights:  10%|▉         | 39/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.3.post_attention_layernorm.weight]Loading weights:  10%|█         | 40/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.3.self_attn.k_norm.weight]        Loading weights:  10%|█         | 40/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.3.self_attn.k_norm.weight]Loading weights:  10%|█         | 41/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.3.self_attn.k_proj.weight]Loading weights:  10%|█         | 41/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.3.self_attn.k_proj.weight]Loading weights:  11%|█         | 42/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.3.self_attn.o_proj.weight]Loading weights:  11%|█         | 42/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.3.self_attn.o_proj.weight]Loading weights:  11%|█         | 43/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.3.self_attn.q_norm.weight]Loading weights:  11%|█         | 43/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.3.self_attn.q_norm.weight]Loading weights:  11%|█         | 44/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.3.self_attn.q_proj.weight]Loading weights:  11%|█         | 44/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.3.self_attn.q_proj.weight]Loading weights:  11%|█▏        | 45/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.3.self_attn.v_proj.weight]Loading weights:  11%|█▏        | 45/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.3.self_attn.v_proj.weight]Loading weights:  12%|█▏        | 46/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.4.input_layernorm.weight] Loading weights:  12%|█▏        | 46/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.4.input_layernorm.weight]Loading weights:  12%|█▏        | 47/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.4.mlp.down_proj.weight]  Loading weights:  12%|█▏        | 47/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.4.mlp.down_proj.weight]Loading weights:  12%|█▏        | 48/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.4.mlp.gate_proj.weight]Loading weights:  12%|█▏        | 48/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.4.mlp.gate_proj.weight]Loading weights:  12%|█▏        | 49/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.4.mlp.up_proj.weight]  Loading weights:  12%|█▏        | 49/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.4.mlp.up_proj.weight]Loading weights:  13%|█▎        | 50/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.4.post_attention_layernorm.weight]Loading weights:  13%|█▎        | 50/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.4.post_attention_layernorm.weight]Loading weights:  13%|█▎        | 51/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.4.self_attn.k_norm.weight]        Loading weights:  13%|█▎        | 51/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.4.self_attn.k_norm.weight]Loading weights:  13%|█▎        | 52/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.4.self_attn.k_proj.weight]Loading weights:  13%|█▎        | 52/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.4.self_attn.k_proj.weight]Loading weights:  13%|█▎        | 53/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.4.self_attn.o_proj.weight]Loading weights:  13%|█▎        | 53/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.4.self_attn.o_proj.weight]Loading weights:  14%|█▎        | 54/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.4.self_attn.q_norm.weight]Loading weights:  14%|█▎        | 54/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.4.self_attn.q_norm.weight]Loading weights:  14%|█▍        | 55/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.4.self_attn.q_proj.weight]Loading weights:  14%|█▍        | 55/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.4.self_attn.q_proj.weight]Loading weights:  14%|█▍        | 56/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.4.self_attn.v_proj.weight]Loading weights:  14%|█▍        | 56/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.4.self_attn.v_proj.weight]Loading weights:  14%|█▍        | 57/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.5.input_layernorm.weight] Loading weights:  14%|█▍        | 57/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.5.input_layernorm.weight]Loading weights:  15%|█▍        | 58/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.5.mlp.down_proj.weight]  Loading weights:  15%|█▍        | 58/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.5.mlp.down_proj.weight]Loading weights:  15%|█▍        | 59/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.5.mlp.gate_proj.weight]Loading weights:  15%|█▍        | 59/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.5.mlp.gate_proj.weight]Loading weights:  15%|█▌        | 60/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.5.mlp.up_proj.weight]  Loading weights:  15%|█▌        | 60/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.5.mlp.up_proj.weight]Loading weights:  15%|█▌        | 61/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.5.post_attention_layernorm.weight]Loading weights:  15%|█▌        | 61/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.5.post_attention_layernorm.weight]Loading weights:  16%|█▌        | 62/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.5.self_attn.k_norm.weight]        Loading weights:  16%|█▌        | 62/398 [00:00<00:02, 167.60it/s, Materializing param=model.layers.5.self_attn.k_norm.weight]Loading weights:  16%|█▌        | 63/398 [00:00<00:01, 167.60it/s, Materializing param=model.layers.5.self_attn.k_proj.weight]Loading weights:  16%|█▌        | 63/398 [00:00<00:01, 167.60it/s, Materializing param=model.layers.5.self_attn.k_proj.weight]Loading weights:  16%|█▌        | 64/398 [00:00<00:01, 167.60it/s, Materializing param=model.layers.5.self_attn.o_proj.weight]Loading weights:  16%|█▌        | 64/398 [00:00<00:01, 167.60it/s, Materializing param=model.layers.5.self_attn.o_proj.weight]Loading weights:  16%|█▋        | 65/398 [00:00<00:01, 167.60it/s, Materializing param=model.layers.5.self_attn.q_norm.weight]Loading weights:  16%|█▋        | 65/398 [00:00<00:01, 167.60it/s, Materializing param=model.layers.5.self_attn.q_norm.weight]Loading weights:  17%|█▋        | 66/398 [00:00<00:01, 167.60it/s, Materializing param=model.layers.5.self_attn.q_proj.weight]Loading weights:  17%|█▋        | 66/398 [00:00<00:01, 167.60it/s, Materializing param=model.layers.5.self_attn.q_proj.weight]Loading weights:  17%|█▋        | 67/398 [00:00<00:01, 167.60it/s, Materializing param=model.layers.5.self_attn.v_proj.weight]Loading weights:  17%|█▋        | 67/398 [00:00<00:01, 167.60it/s, Materializing param=model.layers.5.self_attn.v_proj.weight]Loading weights:  17%|█▋        | 68/398 [00:00<00:01, 167.60it/s, Materializing param=model.layers.6.input_layernorm.weight] Loading weights:  17%|█▋        | 68/398 [00:00<00:01, 167.60it/s, Materializing param=model.layers.6.input_layernorm.weight]Loading weights:  17%|█▋        | 69/398 [00:00<00:01, 167.60it/s, Materializing param=model.layers.6.mlp.down_proj.weight]  Loading weights:  17%|█▋        | 69/398 [00:00<00:01, 167.60it/s, Materializing param=model.layers.6.mlp.down_proj.weight]Loading weights:  18%|█▊        | 70/398 [00:00<00:01, 167.60it/s, Materializing param=model.layers.6.mlp.gate_proj.weight]Loading weights:  18%|█▊        | 70/398 [00:00<00:01, 167.60it/s, Materializing param=model.layers.6.mlp.gate_proj.weight]Loading weights:  18%|█▊        | 71/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.6.mlp.gate_proj.weight]Loading weights:  18%|█▊        | 71/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.6.mlp.up_proj.weight]  Loading weights:  18%|█▊        | 71/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.6.mlp.up_proj.weight]Loading weights:  18%|█▊        | 72/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.6.post_attention_layernorm.weight]Loading weights:  18%|█▊        | 72/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.6.post_attention_layernorm.weight]Loading weights:  18%|█▊        | 73/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.6.self_attn.k_norm.weight]        Loading weights:  18%|█▊        | 73/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.6.self_attn.k_norm.weight]Loading weights:  19%|█▊        | 74/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.6.self_attn.k_proj.weight]Loading weights:  19%|█▊        | 74/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.6.self_attn.k_proj.weight]Loading weights:  19%|█▉        | 75/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.6.self_attn.o_proj.weight]Loading weights:  19%|█▉        | 75/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.6.self_attn.o_proj.weight]Loading weights:  19%|█▉        | 76/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.6.self_attn.q_norm.weight]Loading weights:  19%|█▉        | 76/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.6.self_attn.q_norm.weight]Loading weights:  19%|█▉        | 77/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.6.self_attn.q_proj.weight]Loading weights:  19%|█▉        | 77/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.6.self_attn.q_proj.weight]Loading weights:  20%|█▉        | 78/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.6.self_attn.v_proj.weight]Loading weights:  20%|█▉        | 78/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.6.self_attn.v_proj.weight]Loading weights:  20%|█▉        | 79/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.7.input_layernorm.weight] Loading weights:  20%|█▉        | 79/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.7.input_layernorm.weight]Loading weights:  20%|██        | 80/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.7.mlp.down_proj.weight]  Loading weights:  20%|██        | 80/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.7.mlp.down_proj.weight]Loading weights:  20%|██        | 81/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.7.mlp.gate_proj.weight]Loading weights:  20%|██        | 81/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.7.mlp.gate_proj.weight]Loading weights:  21%|██        | 82/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.7.mlp.up_proj.weight]  Loading weights:  21%|██        | 82/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.7.mlp.up_proj.weight]Loading weights:  21%|██        | 83/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.7.post_attention_layernorm.weight]Loading weights:  21%|██        | 83/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.7.post_attention_layernorm.weight]Loading weights:  21%|██        | 84/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.7.self_attn.k_norm.weight]        Loading weights:  21%|██        | 84/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.7.self_attn.k_norm.weight]Loading weights:  21%|██▏       | 85/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.7.self_attn.k_proj.weight]Loading weights:  21%|██▏       | 85/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.7.self_attn.k_proj.weight]Loading weights:  22%|██▏       | 86/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.7.self_attn.o_proj.weight]Loading weights:  22%|██▏       | 86/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.7.self_attn.o_proj.weight]Loading weights:  22%|██▏       | 87/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.7.self_attn.q_norm.weight]Loading weights:  22%|██▏       | 87/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.7.self_attn.q_norm.weight]Loading weights:  22%|██▏       | 88/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.7.self_attn.q_proj.weight]Loading weights:  22%|██▏       | 88/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.7.self_attn.q_proj.weight]Loading weights:  22%|██▏       | 89/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.7.self_attn.v_proj.weight]Loading weights:  22%|██▏       | 89/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.7.self_attn.v_proj.weight]Loading weights:  23%|██▎       | 90/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.8.input_layernorm.weight] Loading weights:  23%|██▎       | 90/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.8.input_layernorm.weight]Loading weights:  23%|██▎       | 91/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.8.mlp.down_proj.weight]  Loading weights:  23%|██▎       | 91/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.8.mlp.down_proj.weight]Loading weights:  23%|██▎       | 92/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.8.mlp.gate_proj.weight]Loading weights:  23%|██▎       | 92/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.8.mlp.gate_proj.weight]Loading weights:  23%|██▎       | 93/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.8.mlp.up_proj.weight]  Loading weights:  23%|██▎       | 93/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.8.mlp.up_proj.weight]Loading weights:  24%|██▎       | 94/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.8.post_attention_layernorm.weight]Loading weights:  24%|██▎       | 94/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.8.post_attention_layernorm.weight]Loading weights:  24%|██▍       | 95/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.8.self_attn.k_norm.weight]        Loading weights:  24%|██▍       | 95/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.8.self_attn.k_norm.weight]Loading weights:  24%|██▍       | 96/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.8.self_attn.k_proj.weight]Loading weights:  24%|██▍       | 96/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.8.self_attn.k_proj.weight]Loading weights:  24%|██▍       | 97/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.8.self_attn.o_proj.weight]Loading weights:  24%|██▍       | 97/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.8.self_attn.o_proj.weight]Loading weights:  25%|██▍       | 98/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.8.self_attn.q_norm.weight]Loading weights:  25%|██▍       | 98/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.8.self_attn.q_norm.weight]Loading weights:  25%|██▍       | 99/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.8.self_attn.q_proj.weight]Loading weights:  25%|██▍       | 99/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.8.self_attn.q_proj.weight]Loading weights:  25%|██▌       | 100/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.8.self_attn.v_proj.weight]Loading weights:  25%|██▌       | 100/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.8.self_attn.v_proj.weight]Loading weights:  25%|██▌       | 101/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.9.input_layernorm.weight] Loading weights:  25%|██▌       | 101/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.9.input_layernorm.weight]Loading weights:  26%|██▌       | 102/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.9.mlp.down_proj.weight]  Loading weights:  26%|██▌       | 102/398 [00:00<00:01, 232.21it/s, Materializing param=model.layers.9.mlp.down_proj.weight]Loading weights:  26%|██▌       | 103/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.9.mlp.down_proj.weight]Loading weights:  26%|██▌       | 103/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.9.mlp.gate_proj.weight]Loading weights:  26%|██▌       | 103/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.9.mlp.gate_proj.weight]Loading weights:  26%|██▌       | 104/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.9.mlp.up_proj.weight]  Loading weights:  26%|██▌       | 104/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.9.mlp.up_proj.weight]Loading weights:  26%|██▋       | 105/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.9.post_attention_layernorm.weight]Loading weights:  26%|██▋       | 105/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.9.post_attention_layernorm.weight]Loading weights:  27%|██▋       | 106/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.9.self_attn.k_norm.weight]        Loading weights:  27%|██▋       | 106/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.9.self_attn.k_norm.weight]Loading weights:  27%|██▋       | 107/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.9.self_attn.k_proj.weight]Loading weights:  27%|██▋       | 107/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.9.self_attn.k_proj.weight]Loading weights:  27%|██▋       | 108/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.9.self_attn.o_proj.weight]Loading weights:  27%|██▋       | 108/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.9.self_attn.o_proj.weight]Loading weights:  27%|██▋       | 109/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.9.self_attn.q_norm.weight]Loading weights:  27%|██▋       | 109/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.9.self_attn.q_norm.weight]Loading weights:  28%|██▊       | 110/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.9.self_attn.q_proj.weight]Loading weights:  28%|██▊       | 110/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.9.self_attn.q_proj.weight]Loading weights:  28%|██▊       | 111/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.9.self_attn.v_proj.weight]Loading weights:  28%|██▊       | 111/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.9.self_attn.v_proj.weight]Loading weights:  28%|██▊       | 112/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.10.input_layernorm.weight]Loading weights:  28%|██▊       | 112/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.10.input_layernorm.weight]Loading weights:  28%|██▊       | 113/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.10.mlp.down_proj.weight]  Loading weights:  28%|██▊       | 113/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.10.mlp.down_proj.weight]Loading weights:  29%|██▊       | 114/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.10.mlp.gate_proj.weight]Loading weights:  29%|██▊       | 114/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.10.mlp.gate_proj.weight]Loading weights:  29%|██▉       | 115/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.10.mlp.up_proj.weight]  Loading weights:  29%|██▉       | 115/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.10.mlp.up_proj.weight]Loading weights:  29%|██▉       | 116/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.10.post_attention_layernorm.weight]Loading weights:  29%|██▉       | 116/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.10.post_attention_layernorm.weight]Loading weights:  29%|██▉       | 117/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.10.self_attn.k_norm.weight]        Loading weights:  29%|██▉       | 117/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.10.self_attn.k_norm.weight]Loading weights:  30%|██▉       | 118/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.10.self_attn.k_proj.weight]Loading weights:  30%|██▉       | 118/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.10.self_attn.k_proj.weight]Loading weights:  30%|██▉       | 119/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.10.self_attn.o_proj.weight]Loading weights:  30%|██▉       | 119/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.10.self_attn.o_proj.weight]Loading weights:  30%|███       | 120/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.10.self_attn.q_norm.weight]Loading weights:  30%|███       | 120/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.10.self_attn.q_norm.weight]Loading weights:  30%|███       | 121/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.10.self_attn.q_proj.weight]Loading weights:  30%|███       | 121/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.10.self_attn.q_proj.weight]Loading weights:  31%|███       | 122/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.10.self_attn.v_proj.weight]Loading weights:  31%|███       | 122/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.10.self_attn.v_proj.weight]Loading weights:  31%|███       | 123/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.11.input_layernorm.weight] Loading weights:  31%|███       | 123/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.11.input_layernorm.weight]Loading weights:  31%|███       | 124/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.11.mlp.down_proj.weight]  Loading weights:  31%|███       | 124/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.11.mlp.down_proj.weight]Loading weights:  31%|███▏      | 125/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.11.mlp.gate_proj.weight]Loading weights:  31%|███▏      | 125/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.11.mlp.gate_proj.weight]Loading weights:  32%|███▏      | 126/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.11.mlp.up_proj.weight]  Loading weights:  32%|███▏      | 126/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.11.mlp.up_proj.weight]Loading weights:  32%|███▏      | 127/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.11.post_attention_layernorm.weight]Loading weights:  32%|███▏      | 127/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.11.post_attention_layernorm.weight]Loading weights:  32%|███▏      | 128/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.11.self_attn.k_norm.weight]        Loading weights:  32%|███▏      | 128/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.11.self_attn.k_norm.weight]Loading weights:  32%|███▏      | 129/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.11.self_attn.k_proj.weight]Loading weights:  32%|███▏      | 129/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.11.self_attn.k_proj.weight]Loading weights:  33%|███▎      | 130/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.11.self_attn.o_proj.weight]Loading weights:  33%|███▎      | 130/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.11.self_attn.o_proj.weight]Loading weights:  33%|███▎      | 131/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.11.self_attn.q_norm.weight]Loading weights:  33%|███▎      | 131/398 [00:00<00:01, 256.46it/s, Materializing param=model.layers.11.self_attn.q_norm.weight]Loading weights:  33%|███▎      | 132/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.11.self_attn.q_norm.weight]Loading weights:  33%|███▎      | 132/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.11.self_attn.q_proj.weight]Loading weights:  33%|███▎      | 132/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.11.self_attn.q_proj.weight]Loading weights:  33%|███▎      | 133/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.11.self_attn.v_proj.weight]Loading weights:  33%|███▎      | 133/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.11.self_attn.v_proj.weight]Loading weights:  34%|███▎      | 134/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.12.input_layernorm.weight] Loading weights:  34%|███▎      | 134/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.12.input_layernorm.weight]Loading weights:  34%|███▍      | 135/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.12.mlp.down_proj.weight]  Loading weights:  34%|███▍      | 135/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.12.mlp.down_proj.weight]Loading weights:  34%|███▍      | 136/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.12.mlp.gate_proj.weight]Loading weights:  34%|███▍      | 136/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.12.mlp.gate_proj.weight]Loading weights:  34%|███▍      | 137/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.12.mlp.up_proj.weight]  Loading weights:  34%|███▍      | 137/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.12.mlp.up_proj.weight]Loading weights:  35%|███▍      | 138/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.12.post_attention_layernorm.weight]Loading weights:  35%|███▍      | 138/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.12.post_attention_layernorm.weight]Loading weights:  35%|███▍      | 139/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.12.self_attn.k_norm.weight]        Loading weights:  35%|███▍      | 139/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.12.self_attn.k_norm.weight]Loading weights:  35%|███▌      | 140/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.12.self_attn.k_proj.weight]Loading weights:  35%|███▌      | 140/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.12.self_attn.k_proj.weight]Loading weights:  35%|███▌      | 141/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.12.self_attn.o_proj.weight]Loading weights:  35%|███▌      | 141/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.12.self_attn.o_proj.weight]Loading weights:  36%|███▌      | 142/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.12.self_attn.q_norm.weight]Loading weights:  36%|███▌      | 142/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.12.self_attn.q_norm.weight]Loading weights:  36%|███▌      | 143/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.12.self_attn.q_proj.weight]Loading weights:  36%|███▌      | 143/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.12.self_attn.q_proj.weight]Loading weights:  36%|███▌      | 144/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.12.self_attn.v_proj.weight]Loading weights:  36%|███▌      | 144/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.12.self_attn.v_proj.weight]Loading weights:  36%|███▋      | 145/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.13.input_layernorm.weight] Loading weights:  36%|███▋      | 145/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.13.input_layernorm.weight]Loading weights:  37%|███▋      | 146/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.13.mlp.down_proj.weight]  Loading weights:  37%|███▋      | 146/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.13.mlp.down_proj.weight]Loading weights:  37%|███▋      | 147/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.13.mlp.gate_proj.weight]Loading weights:  37%|███▋      | 147/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.13.mlp.gate_proj.weight]Loading weights:  37%|███▋      | 148/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.13.mlp.up_proj.weight]  Loading weights:  37%|███▋      | 148/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.13.mlp.up_proj.weight]Loading weights:  37%|███▋      | 149/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.13.post_attention_layernorm.weight]Loading weights:  37%|███▋      | 149/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.13.post_attention_layernorm.weight]Loading weights:  38%|███▊      | 150/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.13.self_attn.k_norm.weight]        Loading weights:  38%|███▊      | 150/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.13.self_attn.k_norm.weight]Loading weights:  38%|███▊      | 151/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.13.self_attn.k_proj.weight]Loading weights:  38%|███▊      | 151/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.13.self_attn.k_proj.weight]Loading weights:  38%|███▊      | 152/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.13.self_attn.o_proj.weight]Loading weights:  38%|███▊      | 152/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.13.self_attn.o_proj.weight]Loading weights:  38%|███▊      | 153/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.13.self_attn.q_norm.weight]Loading weights:  38%|███▊      | 153/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.13.self_attn.q_norm.weight]Loading weights:  39%|███▊      | 154/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.13.self_attn.q_proj.weight]Loading weights:  39%|███▊      | 154/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.13.self_attn.q_proj.weight]Loading weights:  39%|███▉      | 155/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.13.self_attn.v_proj.weight]Loading weights:  39%|███▉      | 155/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.13.self_attn.v_proj.weight]Loading weights:  39%|███▉      | 156/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.14.input_layernorm.weight] Loading weights:  39%|███▉      | 156/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.14.input_layernorm.weight]Loading weights:  39%|███▉      | 157/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.14.mlp.down_proj.weight]  Loading weights:  39%|███▉      | 157/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.14.mlp.down_proj.weight]Loading weights:  40%|███▉      | 158/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.14.mlp.gate_proj.weight]Loading weights:  40%|███▉      | 158/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.14.mlp.gate_proj.weight]Loading weights:  40%|███▉      | 159/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.14.mlp.up_proj.weight]  Loading weights:  40%|███▉      | 159/398 [00:00<00:00, 267.35it/s, Materializing param=model.layers.14.mlp.up_proj.weight]Loading weights:  40%|████      | 160/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.14.mlp.up_proj.weight]Loading weights:  40%|████      | 160/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.14.post_attention_layernorm.weight]Loading weights:  40%|████      | 160/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.14.post_attention_layernorm.weight]Loading weights:  40%|████      | 161/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.14.self_attn.k_norm.weight]        Loading weights:  40%|████      | 161/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.14.self_attn.k_norm.weight]Loading weights:  41%|████      | 162/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.14.self_attn.k_proj.weight]Loading weights:  41%|████      | 162/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.14.self_attn.k_proj.weight]Loading weights:  41%|████      | 163/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.14.self_attn.o_proj.weight]Loading weights:  41%|████      | 163/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.14.self_attn.o_proj.weight]Loading weights:  41%|████      | 164/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.14.self_attn.q_norm.weight]Loading weights:  41%|████      | 164/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.14.self_attn.q_norm.weight]Loading weights:  41%|████▏     | 165/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.14.self_attn.q_proj.weight]Loading weights:  41%|████▏     | 165/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.14.self_attn.q_proj.weight]Loading weights:  42%|████▏     | 166/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.14.self_attn.v_proj.weight]Loading weights:  42%|████▏     | 166/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.14.self_attn.v_proj.weight]Loading weights:  42%|████▏     | 167/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.15.input_layernorm.weight] Loading weights:  42%|████▏     | 167/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.15.input_layernorm.weight]Loading weights:  42%|████▏     | 168/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.15.mlp.down_proj.weight]  Loading weights:  42%|████▏     | 168/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.15.mlp.down_proj.weight]Loading weights:  42%|████▏     | 169/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.15.mlp.gate_proj.weight]Loading weights:  42%|████▏     | 169/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.15.mlp.gate_proj.weight]Loading weights:  43%|████▎     | 170/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.15.mlp.up_proj.weight]  Loading weights:  43%|████▎     | 170/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.15.mlp.up_proj.weight]Loading weights:  43%|████▎     | 171/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.15.post_attention_layernorm.weight]Loading weights:  43%|████▎     | 171/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.15.post_attention_layernorm.weight]Loading weights:  43%|████▎     | 172/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.15.self_attn.k_norm.weight]        Loading weights:  43%|████▎     | 172/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.15.self_attn.k_norm.weight]Loading weights:  43%|████▎     | 173/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.15.self_attn.k_proj.weight]Loading weights:  43%|████▎     | 173/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.15.self_attn.k_proj.weight]Loading weights:  44%|████▎     | 174/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.15.self_attn.o_proj.weight]Loading weights:  44%|████▎     | 174/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.15.self_attn.o_proj.weight]Loading weights:  44%|████▍     | 175/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.15.self_attn.q_norm.weight]Loading weights:  44%|████▍     | 175/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.15.self_attn.q_norm.weight]Loading weights:  44%|████▍     | 176/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.15.self_attn.q_proj.weight]Loading weights:  44%|████▍     | 176/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.15.self_attn.q_proj.weight]Loading weights:  44%|████▍     | 177/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.15.self_attn.v_proj.weight]Loading weights:  44%|████▍     | 177/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.15.self_attn.v_proj.weight]Loading weights:  45%|████▍     | 178/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.16.input_layernorm.weight] Loading weights:  45%|████▍     | 178/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.16.input_layernorm.weight]Loading weights:  45%|████▍     | 179/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.16.mlp.down_proj.weight]  Loading weights:  45%|████▍     | 179/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.16.mlp.down_proj.weight]Loading weights:  45%|████▌     | 180/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.16.mlp.gate_proj.weight]Loading weights:  45%|████▌     | 180/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.16.mlp.gate_proj.weight]Loading weights:  45%|████▌     | 181/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.16.mlp.up_proj.weight]  Loading weights:  45%|████▌     | 181/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.16.mlp.up_proj.weight]Loading weights:  46%|████▌     | 182/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.16.post_attention_layernorm.weight]Loading weights:  46%|████▌     | 182/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.16.post_attention_layernorm.weight]Loading weights:  46%|████▌     | 183/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.16.self_attn.k_norm.weight]        Loading weights:  46%|████▌     | 183/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.16.self_attn.k_norm.weight]Loading weights:  46%|████▌     | 184/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.16.self_attn.k_proj.weight]Loading weights:  46%|████▌     | 184/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.16.self_attn.k_proj.weight]Loading weights:  46%|████▋     | 185/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.16.self_attn.o_proj.weight]Loading weights:  46%|████▋     | 185/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.16.self_attn.o_proj.weight]Loading weights:  47%|████▋     | 186/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.16.self_attn.q_norm.weight]Loading weights:  47%|████▋     | 186/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.16.self_attn.q_norm.weight]Loading weights:  47%|████▋     | 187/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.16.self_attn.q_proj.weight]Loading weights:  47%|████▋     | 187/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.16.self_attn.q_proj.weight]Loading weights:  47%|████▋     | 188/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.16.self_attn.v_proj.weight]Loading weights:  47%|████▋     | 188/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.16.self_attn.v_proj.weight]Loading weights:  47%|████▋     | 189/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.17.input_layernorm.weight] Loading weights:  47%|████▋     | 189/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.17.input_layernorm.weight]Loading weights:  48%|████▊     | 190/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.17.mlp.down_proj.weight]  Loading weights:  48%|████▊     | 190/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.17.mlp.down_proj.weight]Loading weights:  48%|████▊     | 191/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.17.mlp.gate_proj.weight]Loading weights:  48%|████▊     | 191/398 [00:00<00:00, 265.42it/s, Materializing param=model.layers.17.mlp.gate_proj.weight]Loading weights:  48%|████▊     | 192/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.17.mlp.gate_proj.weight]Loading weights:  48%|████▊     | 192/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.17.mlp.up_proj.weight]  Loading weights:  48%|████▊     | 192/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.17.mlp.up_proj.weight]Loading weights:  48%|████▊     | 193/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.17.post_attention_layernorm.weight]Loading weights:  48%|████▊     | 193/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.17.post_attention_layernorm.weight]Loading weights:  49%|████▊     | 194/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.17.self_attn.k_norm.weight]        Loading weights:  49%|████▊     | 194/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.17.self_attn.k_norm.weight]Loading weights:  49%|████▉     | 195/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.17.self_attn.k_proj.weight]Loading weights:  49%|████▉     | 195/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.17.self_attn.k_proj.weight]Loading weights:  49%|████▉     | 196/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.17.self_attn.o_proj.weight]Loading weights:  49%|████▉     | 196/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.17.self_attn.o_proj.weight]Loading weights:  49%|████▉     | 197/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.17.self_attn.q_norm.weight]Loading weights:  49%|████▉     | 197/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.17.self_attn.q_norm.weight]Loading weights:  50%|████▉     | 198/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.17.self_attn.q_proj.weight]Loading weights:  50%|████▉     | 198/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.17.self_attn.q_proj.weight]Loading weights:  50%|█████     | 199/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.17.self_attn.v_proj.weight]Loading weights:  50%|█████     | 199/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.17.self_attn.v_proj.weight]Loading weights:  50%|█████     | 200/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.18.input_layernorm.weight] Loading weights:  50%|█████     | 200/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.18.input_layernorm.weight]Loading weights:  51%|█████     | 201/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.18.mlp.down_proj.weight]  Loading weights:  51%|█████     | 201/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.18.mlp.down_proj.weight]Loading weights:  51%|█████     | 202/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.18.mlp.gate_proj.weight]Loading weights:  51%|█████     | 202/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.18.mlp.gate_proj.weight]Loading weights:  51%|█████     | 203/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.18.mlp.up_proj.weight]  Loading weights:  51%|█████     | 203/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.18.mlp.up_proj.weight]Loading weights:  51%|█████▏    | 204/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.18.post_attention_layernorm.weight]Loading weights:  51%|█████▏    | 204/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.18.post_attention_layernorm.weight]Loading weights:  52%|█████▏    | 205/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.18.self_attn.k_norm.weight]        Loading weights:  52%|█████▏    | 205/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.18.self_attn.k_norm.weight]Loading weights:  52%|█████▏    | 206/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.18.self_attn.k_proj.weight]Loading weights:  52%|█████▏    | 206/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.18.self_attn.k_proj.weight]Loading weights:  52%|█████▏    | 207/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.18.self_attn.o_proj.weight]Loading weights:  52%|█████▏    | 207/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.18.self_attn.o_proj.weight]Loading weights:  52%|█████▏    | 208/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.18.self_attn.q_norm.weight]Loading weights:  52%|█████▏    | 208/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.18.self_attn.q_norm.weight]Loading weights:  53%|█████▎    | 209/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.18.self_attn.q_proj.weight]Loading weights:  53%|█████▎    | 209/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.18.self_attn.q_proj.weight]Loading weights:  53%|█████▎    | 210/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.18.self_attn.v_proj.weight]Loading weights:  53%|█████▎    | 210/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.18.self_attn.v_proj.weight]Loading weights:  53%|█████▎    | 211/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.19.input_layernorm.weight] Loading weights:  53%|█████▎    | 211/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.19.input_layernorm.weight]Loading weights:  53%|█████▎    | 212/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.19.mlp.down_proj.weight]  Loading weights:  53%|█████▎    | 212/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.19.mlp.down_proj.weight]Loading weights:  54%|█████▎    | 213/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.19.mlp.gate_proj.weight]Loading weights:  54%|█████▎    | 213/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.19.mlp.gate_proj.weight]Loading weights:  54%|█████▍    | 214/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.19.mlp.up_proj.weight]  Loading weights:  54%|█████▍    | 214/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.19.mlp.up_proj.weight]Loading weights:  54%|█████▍    | 215/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.19.post_attention_layernorm.weight]Loading weights:  54%|█████▍    | 215/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.19.post_attention_layernorm.weight]Loading weights:  54%|█████▍    | 216/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.19.self_attn.k_norm.weight]        Loading weights:  54%|█████▍    | 216/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.19.self_attn.k_norm.weight]Loading weights:  55%|█████▍    | 217/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.19.self_attn.k_proj.weight]Loading weights:  55%|█████▍    | 217/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.19.self_attn.k_proj.weight]Loading weights:  55%|█████▍    | 218/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.19.self_attn.o_proj.weight]Loading weights:  55%|█████▍    | 218/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.19.self_attn.o_proj.weight]Loading weights:  55%|█████▌    | 219/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.19.self_attn.q_norm.weight]Loading weights:  55%|█████▌    | 219/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.19.self_attn.q_norm.weight]Loading weights:  55%|█████▌    | 220/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.19.self_attn.q_proj.weight]Loading weights:  55%|█████▌    | 220/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.19.self_attn.q_proj.weight]Loading weights:  56%|█████▌    | 221/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.19.self_attn.v_proj.weight]Loading weights:  56%|█████▌    | 221/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.19.self_attn.v_proj.weight]Loading weights:  56%|█████▌    | 222/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.20.input_layernorm.weight] Loading weights:  56%|█████▌    | 222/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.20.input_layernorm.weight]Loading weights:  56%|█████▌    | 223/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.20.mlp.down_proj.weight]  Loading weights:  56%|█████▌    | 223/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.20.mlp.down_proj.weight]Loading weights:  56%|█████▋    | 224/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.20.mlp.gate_proj.weight]Loading weights:  56%|█████▋    | 224/398 [00:00<00:00, 280.85it/s, Materializing param=model.layers.20.mlp.gate_proj.weight]Loading weights:  57%|█████▋    | 225/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.20.mlp.gate_proj.weight]Loading weights:  57%|█████▋    | 225/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.20.mlp.up_proj.weight]  Loading weights:  57%|█████▋    | 225/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.20.mlp.up_proj.weight]Loading weights:  57%|█████▋    | 226/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.20.post_attention_layernorm.weight]Loading weights:  57%|█████▋    | 226/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.20.post_attention_layernorm.weight]Loading weights:  57%|█████▋    | 227/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.20.self_attn.k_norm.weight]        Loading weights:  57%|█████▋    | 227/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.20.self_attn.k_norm.weight]Loading weights:  57%|█████▋    | 228/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.20.self_attn.k_proj.weight]Loading weights:  57%|█████▋    | 228/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.20.self_attn.k_proj.weight]Loading weights:  58%|█████▊    | 229/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.20.self_attn.o_proj.weight]Loading weights:  58%|█████▊    | 229/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.20.self_attn.o_proj.weight]Loading weights:  58%|█████▊    | 230/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.20.self_attn.q_norm.weight]Loading weights:  58%|█████▊    | 230/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.20.self_attn.q_norm.weight]Loading weights:  58%|█████▊    | 231/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.20.self_attn.q_proj.weight]Loading weights:  58%|█████▊    | 231/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.20.self_attn.q_proj.weight]Loading weights:  58%|█████▊    | 232/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.20.self_attn.v_proj.weight]Loading weights:  58%|█████▊    | 232/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.20.self_attn.v_proj.weight]Loading weights:  59%|█████▊    | 233/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.21.input_layernorm.weight] Loading weights:  59%|█████▊    | 233/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.21.input_layernorm.weight]Loading weights:  59%|█████▉    | 234/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.21.mlp.down_proj.weight]  Loading weights:  59%|█████▉    | 234/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.21.mlp.down_proj.weight]Loading weights:  59%|█████▉    | 235/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.21.mlp.gate_proj.weight]Loading weights:  59%|█████▉    | 235/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.21.mlp.gate_proj.weight]Loading weights:  59%|█████▉    | 236/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.21.mlp.up_proj.weight]  Loading weights:  59%|█████▉    | 236/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.21.mlp.up_proj.weight]Loading weights:  60%|█████▉    | 237/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.21.post_attention_layernorm.weight]Loading weights:  60%|█████▉    | 237/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.21.post_attention_layernorm.weight]Loading weights:  60%|█████▉    | 238/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.21.self_attn.k_norm.weight]        Loading weights:  60%|█████▉    | 238/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.21.self_attn.k_norm.weight]Loading weights:  60%|██████    | 239/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.21.self_attn.k_proj.weight]Loading weights:  60%|██████    | 239/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.21.self_attn.k_proj.weight]Loading weights:  60%|██████    | 240/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.21.self_attn.o_proj.weight]Loading weights:  60%|██████    | 240/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.21.self_attn.o_proj.weight]Loading weights:  61%|██████    | 241/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.21.self_attn.q_norm.weight]Loading weights:  61%|██████    | 241/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.21.self_attn.q_norm.weight]Loading weights:  61%|██████    | 242/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.21.self_attn.q_proj.weight]Loading weights:  61%|██████    | 242/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.21.self_attn.q_proj.weight]Loading weights:  61%|██████    | 243/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.21.self_attn.v_proj.weight]Loading weights:  61%|██████    | 243/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.21.self_attn.v_proj.weight]Loading weights:  61%|██████▏   | 244/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.22.input_layernorm.weight] Loading weights:  61%|██████▏   | 244/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.22.input_layernorm.weight]Loading weights:  62%|██████▏   | 245/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.22.mlp.down_proj.weight]  Loading weights:  62%|██████▏   | 245/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.22.mlp.down_proj.weight]Loading weights:  62%|██████▏   | 246/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.22.mlp.gate_proj.weight]Loading weights:  62%|██████▏   | 246/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.22.mlp.gate_proj.weight]Loading weights:  62%|██████▏   | 247/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.22.mlp.up_proj.weight]  Loading weights:  62%|██████▏   | 247/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.22.mlp.up_proj.weight]Loading weights:  62%|██████▏   | 248/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.22.post_attention_layernorm.weight]Loading weights:  62%|██████▏   | 248/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.22.post_attention_layernorm.weight]Loading weights:  63%|██████▎   | 249/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.22.self_attn.k_norm.weight]        Loading weights:  63%|██████▎   | 249/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.22.self_attn.k_norm.weight]Loading weights:  63%|██████▎   | 250/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.22.self_attn.k_proj.weight]Loading weights:  63%|██████▎   | 250/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.22.self_attn.k_proj.weight]Loading weights:  63%|██████▎   | 251/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.22.self_attn.o_proj.weight]Loading weights:  63%|██████▎   | 251/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.22.self_attn.o_proj.weight]Loading weights:  63%|██████▎   | 252/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.22.self_attn.q_norm.weight]Loading weights:  63%|██████▎   | 252/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.22.self_attn.q_norm.weight]Loading weights:  64%|██████▎   | 253/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.22.self_attn.q_proj.weight]Loading weights:  64%|██████▎   | 253/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.22.self_attn.q_proj.weight]Loading weights:  64%|██████▍   | 254/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.22.self_attn.v_proj.weight]Loading weights:  64%|██████▍   | 254/398 [00:00<00:00, 293.01it/s, Materializing param=model.layers.22.self_attn.v_proj.weight]Loading weights:  64%|██████▍   | 255/398 [00:00<00:00, 286.88it/s, Materializing param=model.layers.22.self_attn.v_proj.weight]Loading weights:  64%|██████▍   | 255/398 [00:00<00:00, 286.88it/s, Materializing param=model.layers.23.input_layernorm.weight] Loading weights:  64%|██████▍   | 255/398 [00:00<00:00, 286.88it/s, Materializing param=model.layers.23.input_layernorm.weight]Loading weights:  64%|██████▍   | 256/398 [00:00<00:00, 286.88it/s, Materializing param=model.layers.23.mlp.down_proj.weight]  Loading weights:  64%|██████▍   | 256/398 [00:00<00:00, 286.88it/s, Materializing param=model.layers.23.mlp.down_proj.weight]Loading weights:  65%|██████▍   | 257/398 [00:00<00:00, 286.88it/s, Materializing param=model.layers.23.mlp.gate_proj.weight]Loading weights:  65%|██████▍   | 257/398 [00:00<00:00, 286.88it/s, Materializing param=model.layers.23.mlp.gate_proj.weight]Loading weights:  65%|██████▍   | 258/398 [00:00<00:00, 286.88it/s, Materializing param=model.layers.23.mlp.up_proj.weight]  Loading weights:  65%|██████▍   | 258/398 [00:00<00:00, 286.88it/s, Materializing param=model.layers.23.mlp.up_proj.weight]Loading weights:  65%|██████▌   | 259/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.23.post_attention_layernorm.weight]Loading weights:  65%|██████▌   | 259/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.23.post_attention_layernorm.weight]Loading weights:  65%|██████▌   | 260/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.23.self_attn.k_norm.weight]        Loading weights:  65%|██████▌   | 260/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.23.self_attn.k_norm.weight]Loading weights:  66%|██████▌   | 261/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.23.self_attn.k_proj.weight]Loading weights:  66%|██████▌   | 261/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.23.self_attn.k_proj.weight]Loading weights:  66%|██████▌   | 262/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.23.self_attn.o_proj.weight]Loading weights:  66%|██████▌   | 262/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.23.self_attn.o_proj.weight]Loading weights:  66%|██████▌   | 263/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.23.self_attn.q_norm.weight]Loading weights:  66%|██████▌   | 263/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.23.self_attn.q_norm.weight]Loading weights:  66%|██████▋   | 264/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.23.self_attn.q_proj.weight]Loading weights:  66%|██████▋   | 264/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.23.self_attn.q_proj.weight]Loading weights:  67%|██████▋   | 265/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.23.self_attn.v_proj.weight]Loading weights:  67%|██████▋   | 265/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.23.self_attn.v_proj.weight]Loading weights:  67%|██████▋   | 266/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.24.input_layernorm.weight] Loading weights:  67%|██████▋   | 266/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.24.input_layernorm.weight]Loading weights:  67%|██████▋   | 267/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.24.mlp.down_proj.weight]  Loading weights:  67%|██████▋   | 267/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.24.mlp.down_proj.weight]Loading weights:  67%|██████▋   | 268/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.24.mlp.gate_proj.weight]Loading weights:  67%|██████▋   | 268/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.24.mlp.gate_proj.weight]Loading weights:  68%|██████▊   | 269/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.24.mlp.up_proj.weight]  Loading weights:  68%|██████▊   | 269/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.24.mlp.up_proj.weight]Loading weights:  68%|██████▊   | 270/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.24.post_attention_layernorm.weight]Loading weights:  68%|██████▊   | 270/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.24.post_attention_layernorm.weight]Loading weights:  68%|██████▊   | 271/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.24.self_attn.k_norm.weight]        Loading weights:  68%|██████▊   | 271/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.24.self_attn.k_norm.weight]Loading weights:  68%|██████▊   | 272/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.24.self_attn.k_proj.weight]Loading weights:  68%|██████▊   | 272/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.24.self_attn.k_proj.weight]Loading weights:  69%|██████▊   | 273/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.24.self_attn.o_proj.weight]Loading weights:  69%|██████▊   | 273/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.24.self_attn.o_proj.weight]Loading weights:  69%|██████▉   | 274/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.24.self_attn.q_norm.weight]Loading weights:  69%|██████▉   | 274/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.24.self_attn.q_norm.weight]Loading weights:  69%|██████▉   | 275/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.24.self_attn.q_proj.weight]Loading weights:  69%|██████▉   | 275/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.24.self_attn.q_proj.weight]Loading weights:  69%|██████▉   | 276/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.24.self_attn.v_proj.weight]Loading weights:  69%|██████▉   | 276/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.24.self_attn.v_proj.weight]Loading weights:  70%|██████▉   | 277/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.25.input_layernorm.weight] Loading weights:  70%|██████▉   | 277/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.25.input_layernorm.weight]Loading weights:  70%|██████▉   | 278/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.25.mlp.down_proj.weight]  Loading weights:  70%|██████▉   | 278/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.25.mlp.down_proj.weight]Loading weights:  70%|███████   | 279/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.25.mlp.gate_proj.weight]Loading weights:  70%|███████   | 279/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.25.mlp.gate_proj.weight]Loading weights:  70%|███████   | 280/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.25.mlp.up_proj.weight]  Loading weights:  70%|███████   | 280/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.25.mlp.up_proj.weight]Loading weights:  71%|███████   | 281/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.25.post_attention_layernorm.weight]Loading weights:  71%|███████   | 281/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.25.post_attention_layernorm.weight]Loading weights:  71%|███████   | 282/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.25.self_attn.k_norm.weight]        Loading weights:  71%|███████   | 282/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.25.self_attn.k_norm.weight]Loading weights:  71%|███████   | 283/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.25.self_attn.k_proj.weight]Loading weights:  71%|███████   | 283/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.25.self_attn.k_proj.weight]Loading weights:  71%|███████▏  | 284/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.25.self_attn.o_proj.weight]Loading weights:  71%|███████▏  | 284/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.25.self_attn.o_proj.weight]Loading weights:  72%|███████▏  | 285/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.25.self_attn.q_norm.weight]Loading weights:  72%|███████▏  | 285/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.25.self_attn.q_norm.weight]Loading weights:  72%|███████▏  | 286/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.25.self_attn.q_proj.weight]Loading weights:  72%|███████▏  | 286/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.25.self_attn.q_proj.weight]Loading weights:  72%|███████▏  | 287/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.25.self_attn.v_proj.weight]Loading weights:  72%|███████▏  | 287/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.25.self_attn.v_proj.weight]Loading weights:  72%|███████▏  | 288/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.26.input_layernorm.weight] Loading weights:  72%|███████▏  | 288/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.26.input_layernorm.weight]Loading weights:  73%|███████▎  | 289/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.26.mlp.down_proj.weight]  Loading weights:  73%|███████▎  | 289/398 [00:01<00:00, 286.88it/s, Materializing param=model.layers.26.mlp.down_proj.weight]Loading weights:  73%|███████▎  | 290/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.26.mlp.down_proj.weight]Loading weights:  73%|███████▎  | 290/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.26.mlp.gate_proj.weight]Loading weights:  73%|███████▎  | 290/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.26.mlp.gate_proj.weight]Loading weights:  73%|███████▎  | 291/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.26.mlp.up_proj.weight]  Loading weights:  73%|███████▎  | 291/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.26.mlp.up_proj.weight]Loading weights:  73%|███████▎  | 292/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.26.post_attention_layernorm.weight]Loading weights:  73%|███████▎  | 292/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.26.post_attention_layernorm.weight]Loading weights:  74%|███████▎  | 293/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.26.self_attn.k_norm.weight]        Loading weights:  74%|███████▎  | 293/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.26.self_attn.k_norm.weight]Loading weights:  74%|███████▍  | 294/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.26.self_attn.k_proj.weight]Loading weights:  74%|███████▍  | 294/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.26.self_attn.k_proj.weight]Loading weights:  74%|███████▍  | 295/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.26.self_attn.o_proj.weight]Loading weights:  74%|███████▍  | 295/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.26.self_attn.o_proj.weight]Loading weights:  74%|███████▍  | 296/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.26.self_attn.q_norm.weight]Loading weights:  74%|███████▍  | 296/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.26.self_attn.q_norm.weight]Loading weights:  75%|███████▍  | 297/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.26.self_attn.q_proj.weight]Loading weights:  75%|███████▍  | 297/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.26.self_attn.q_proj.weight]Loading weights:  75%|███████▍  | 298/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.26.self_attn.v_proj.weight]Loading weights:  75%|███████▍  | 298/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.26.self_attn.v_proj.weight]Loading weights:  75%|███████▌  | 299/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.27.input_layernorm.weight] Loading weights:  75%|███████▌  | 299/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.27.input_layernorm.weight]Loading weights:  75%|███████▌  | 300/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.27.mlp.down_proj.weight]  Loading weights:  75%|███████▌  | 300/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.27.mlp.down_proj.weight]Loading weights:  76%|███████▌  | 301/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.27.mlp.gate_proj.weight]Loading weights:  76%|███████▌  | 301/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.27.mlp.gate_proj.weight]Loading weights:  76%|███████▌  | 302/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.27.mlp.up_proj.weight]  Loading weights:  76%|███████▌  | 302/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.27.mlp.up_proj.weight]Loading weights:  76%|███████▌  | 303/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.27.post_attention_layernorm.weight]Loading weights:  76%|███████▌  | 303/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.27.post_attention_layernorm.weight]Loading weights:  76%|███████▋  | 304/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.27.self_attn.k_norm.weight]        Loading weights:  76%|███████▋  | 304/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.27.self_attn.k_norm.weight]Loading weights:  77%|███████▋  | 305/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.27.self_attn.k_proj.weight]Loading weights:  77%|███████▋  | 305/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.27.self_attn.k_proj.weight]Loading weights:  77%|███████▋  | 306/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.27.self_attn.o_proj.weight]Loading weights:  77%|███████▋  | 306/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.27.self_attn.o_proj.weight]Loading weights:  77%|███████▋  | 307/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.27.self_attn.q_norm.weight]Loading weights:  77%|███████▋  | 307/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.27.self_attn.q_norm.weight]Loading weights:  77%|███████▋  | 308/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.27.self_attn.q_proj.weight]Loading weights:  77%|███████▋  | 308/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.27.self_attn.q_proj.weight]Loading weights:  78%|███████▊  | 309/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.27.self_attn.v_proj.weight]Loading weights:  78%|███████▊  | 309/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.27.self_attn.v_proj.weight]Loading weights:  78%|███████▊  | 310/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.28.input_layernorm.weight] Loading weights:  78%|███████▊  | 310/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.28.input_layernorm.weight]Loading weights:  78%|███████▊  | 311/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.28.mlp.down_proj.weight]  Loading weights:  78%|███████▊  | 311/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.28.mlp.down_proj.weight]Loading weights:  78%|███████▊  | 312/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.28.mlp.gate_proj.weight]Loading weights:  78%|███████▊  | 312/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.28.mlp.gate_proj.weight]Loading weights:  79%|███████▊  | 313/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.28.mlp.up_proj.weight]  Loading weights:  79%|███████▊  | 313/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.28.mlp.up_proj.weight]Loading weights:  79%|███████▉  | 314/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.28.post_attention_layernorm.weight]Loading weights:  79%|███████▉  | 314/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.28.post_attention_layernorm.weight]Loading weights:  79%|███████▉  | 315/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.28.self_attn.k_norm.weight]        Loading weights:  79%|███████▉  | 315/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.28.self_attn.k_norm.weight]Loading weights:  79%|███████▉  | 316/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.28.self_attn.k_proj.weight]Loading weights:  79%|███████▉  | 316/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.28.self_attn.k_proj.weight]Loading weights:  80%|███████▉  | 317/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.28.self_attn.o_proj.weight]Loading weights:  80%|███████▉  | 317/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.28.self_attn.o_proj.weight]Loading weights:  80%|███████▉  | 318/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.28.self_attn.q_norm.weight]Loading weights:  80%|███████▉  | 318/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.28.self_attn.q_norm.weight]Loading weights:  80%|████████  | 319/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.28.self_attn.q_proj.weight]Loading weights:  80%|████████  | 319/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.28.self_attn.q_proj.weight]Loading weights:  80%|████████  | 320/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.28.self_attn.v_proj.weight]Loading weights:  80%|████████  | 320/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.28.self_attn.v_proj.weight]Loading weights:  81%|████████  | 321/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.29.input_layernorm.weight] Loading weights:  81%|████████  | 321/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.29.input_layernorm.weight]Loading weights:  81%|████████  | 322/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.29.mlp.down_proj.weight]  Loading weights:  81%|████████  | 322/398 [00:01<00:00, 301.51it/s, Materializing param=model.layers.29.mlp.down_proj.weight]Loading weights:  81%|████████  | 323/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.29.mlp.down_proj.weight]Loading weights:  81%|████████  | 323/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.29.mlp.gate_proj.weight]Loading weights:  81%|████████  | 323/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.29.mlp.gate_proj.weight]Loading weights:  81%|████████▏ | 324/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.29.mlp.up_proj.weight]  Loading weights:  81%|████████▏ | 324/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.29.mlp.up_proj.weight]Loading weights:  82%|████████▏ | 325/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.29.post_attention_layernorm.weight]Loading weights:  82%|████████▏ | 325/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.29.post_attention_layernorm.weight]Loading weights:  82%|████████▏ | 326/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.29.self_attn.k_norm.weight]        Loading weights:  82%|████████▏ | 326/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.29.self_attn.k_norm.weight]Loading weights:  82%|████████▏ | 327/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.29.self_attn.k_proj.weight]Loading weights:  82%|████████▏ | 327/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.29.self_attn.k_proj.weight]Loading weights:  82%|████████▏ | 328/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.29.self_attn.o_proj.weight]Loading weights:  82%|████████▏ | 328/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.29.self_attn.o_proj.weight]Loading weights:  83%|████████▎ | 329/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.29.self_attn.q_norm.weight]Loading weights:  83%|████████▎ | 329/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.29.self_attn.q_norm.weight]Loading weights:  83%|████████▎ | 330/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.29.self_attn.q_proj.weight]Loading weights:  83%|████████▎ | 330/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.29.self_attn.q_proj.weight]Loading weights:  83%|████████▎ | 331/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.29.self_attn.v_proj.weight]Loading weights:  83%|████████▎ | 331/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.29.self_attn.v_proj.weight]Loading weights:  83%|████████▎ | 332/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.30.input_layernorm.weight] Loading weights:  83%|████████▎ | 332/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.30.input_layernorm.weight]Loading weights:  84%|████████▎ | 333/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.30.mlp.down_proj.weight]  Loading weights:  84%|████████▎ | 333/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.30.mlp.down_proj.weight]Loading weights:  84%|████████▍ | 334/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.30.mlp.gate_proj.weight]Loading weights:  84%|████████▍ | 334/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.30.mlp.gate_proj.weight]Loading weights:  84%|████████▍ | 335/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.30.mlp.up_proj.weight]  Loading weights:  84%|████████▍ | 335/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.30.mlp.up_proj.weight]Loading weights:  84%|████████▍ | 336/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.30.post_attention_layernorm.weight]Loading weights:  84%|███████���▍ | 336/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.30.post_attention_layernorm.weight]Loading weights:  85%|████████▍ | 337/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.30.self_attn.k_norm.weight]        Loading weights:  85%|████████▍ | 337/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.30.self_attn.k_norm.weight]Loading weights:  85%|████████▍ | 338/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.30.self_attn.k_proj.weight]Loading weights:  85%|████████▍ | 338/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.30.self_attn.k_proj.weight]Loading weights:  85%|████████▌ | 339/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.30.self_attn.o_proj.weight]Loading weights:  85%|████████▌ | 339/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.30.self_attn.o_proj.weight]Loading weights:  85%|████████▌ | 340/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.30.self_attn.q_norm.weight]Loading weights:  85%|████████▌ | 340/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.30.self_attn.q_norm.weight]Loading weights:  86%|████████▌ | 341/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.30.self_attn.q_proj.weight]Loading weights:  86%|████████▌ | 341/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.30.self_attn.q_proj.weight]Loading weights:  86%|████████▌ | 342/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.30.self_attn.v_proj.weight]Loading weights:  86%|████████▌ | 342/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.30.self_attn.v_proj.weight]Loading weights:  86%|████████▌ | 343/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.31.input_layernorm.weight] Loading weights:  86%|████████▌ | 343/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.31.input_layernorm.weight]Loading weights:  86%|████████▋ | 344/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.31.mlp.down_proj.weight]  Loading weights:  86%|████████▋ | 344/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.31.mlp.down_proj.weight]Loading weights:  87%|████████▋ | 345/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.31.mlp.gate_proj.weight]Loading weights:  87%|████████▋ | 345/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.31.mlp.gate_proj.weight]Loading weights:  87%|████████▋ | 346/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.31.mlp.up_proj.weight]  Loading weights:  87%|████████▋ | 346/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.31.mlp.up_proj.weight]Loading weights:  87%|████████▋ | 347/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.31.post_attention_layernorm.weight]Loading weights:  87%|████████▋ | 347/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.31.post_attention_layernorm.weight]Loading weights:  87%|████████▋ | 348/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.31.self_attn.k_norm.weight]        Loading weights:  87%|████████▋ | 348/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.31.self_attn.k_norm.weight]Loading weights:  88%|████████▊ | 349/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.31.self_attn.k_proj.weight]Loading weights:  88%|████████▊ | 349/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.31.self_attn.k_proj.weight]Loading weights:  88%|████████▊ | 350/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.31.self_attn.o_proj.weight]Loading weights:  88%|████████▊ | 350/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.31.self_attn.o_proj.weight]Loading weights:  88%|████████▊ | 351/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.31.self_attn.q_norm.weight]Loading weights:  88%|████████▊ | 351/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.31.self_attn.q_norm.weight]Loading weights:  88%|████████▊ | 352/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.31.self_attn.q_proj.weight]Loading weights:  88%|████████▊ | 352/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.31.self_attn.q_proj.weight]Loading weights:  89%|████████▊ | 353/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.31.self_attn.v_proj.weight]Loading weights:  89%|████████▊ | 353/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.31.self_attn.v_proj.weight]Loading weights:  89%|████████▉ | 354/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.32.input_layernorm.weight] Loading weights:  89%|████████▉ | 354/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.32.input_layernorm.weight]Loading weights:  89%|████████▉ | 355/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.32.mlp.down_proj.weight]  Loading weights:  89%|████████▉ | 355/398 [00:01<00:00, 305.18it/s, Materializing param=model.layers.32.mlp.down_proj.weight]Loading weights:  89%|████████▉ | 356/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.32.mlp.down_proj.weight]Loading weights:  89%|████████▉ | 356/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.32.mlp.gate_proj.weight]Loading weights:  89%|████████▉ | 356/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.32.mlp.gate_proj.weight]Loading weights:  90%|████████▉ | 357/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.32.mlp.up_proj.weight]  Loading weights:  90%|████████▉ | 357/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.32.mlp.up_proj.weight]Loading weights:  90%|████████▉ | 358/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.32.post_attention_layernorm.weight]Loading weights:  90%|████████▉ | 358/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.32.post_attention_layernorm.weight]Loading weights:  90%|█████████ | 359/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.32.self_attn.k_norm.weight]        Loading weights:  90%|█████████ | 359/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.32.self_attn.k_norm.weight]Loading weights:  90%|█████████ | 360/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.32.self_attn.k_proj.weight]Loading weights:  90%|█████████ | 360/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.32.self_attn.k_proj.weight]Loading weights:  91%|█████████ | 361/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.32.self_attn.o_proj.weight]Loading weights:  91%|█████████ | 361/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.32.self_attn.o_proj.weight]Loading weights:  91%|█████████ | 362/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.32.self_attn.q_norm.weight]Loading weights:  91%|█████████ | 362/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.32.self_attn.q_norm.weight]Loading weights:  91%|█████████ | 363/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.32.self_attn.q_proj.weight]Loading weights:  91%|█████████ | 363/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.32.self_attn.q_proj.weight]Loading weights:  91%|█████████▏| 364/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.32.self_attn.v_proj.weight]Loading weights:  91%|█████████▏| 364/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.32.self_attn.v_proj.weight]Loading weights:  92%|█████████▏| 365/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.33.input_layernorm.weight] Loading weights:  92%|█████████▏| 365/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.33.input_layernorm.weight]Loading weights:  92%|█████████▏| 366/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.33.mlp.down_proj.weight]  Loading weights:  92%|█████████▏| 366/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.33.mlp.down_proj.weight]Loading weights:  92%|█████████▏| 367/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.33.mlp.gate_proj.weight]Loading weights:  92%|█████████▏| 367/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.33.mlp.gate_proj.weight]Loading weights:  92%|█████████▏| 368/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.33.mlp.up_proj.weight]  Loading weights:  92%|█████████▏| 368/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.33.mlp.up_proj.weight]Loading weights:  93%|█████████▎| 369/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.33.post_attention_layernorm.weight]Loading weights:  93%|█████████▎| 369/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.33.post_attention_layernorm.weight]Loading weights:  93%|█████████▎| 370/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.33.self_attn.k_norm.weight]        Loading weights:  93%|█████████▎| 370/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.33.self_attn.k_norm.weight]Loading weights:  93%|█████████▎| 371/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.33.self_attn.k_proj.weight]Loading weights:  93%|█████████▎| 371/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.33.self_attn.k_proj.weight]Loading weights:  93%|█████████▎| 372/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.33.self_attn.o_proj.weight]Loading weights:  93%|█████████▎| 372/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.33.self_attn.o_proj.weight]Loading weights:  94%|█████████▎| 373/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.33.self_attn.q_norm.weight]Loading weights:  94%|█████████▎| 373/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.33.self_attn.q_norm.weight]Loading weights:  94%|█████████▍| 374/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.33.self_attn.q_proj.weight]Loading weights:  94%|█████████▍| 374/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.33.self_attn.q_proj.weight]Loading weights:  94%|█████████▍| 375/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.33.self_attn.v_proj.weight]Loading weights:  94%|█████████▍| 375/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.33.self_attn.v_proj.weight]Loading weights:  94%|█████████▍| 376/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.34.input_layernorm.weight] Loading weights:  94%|█████████▍| 376/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.34.input_layernorm.weight]Loading weights:  95%|█████████▍| 377/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.34.mlp.down_proj.weight]  Loading weights:  95%|█████████▍| 377/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.34.mlp.down_proj.weight]Loading weights:  95%|█████████▍| 378/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.34.mlp.gate_proj.weight]Loading weights:  95%|█████████▍| 378/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.34.mlp.gate_proj.weight]Loading weights:  95%|█████████▌| 379/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.34.mlp.up_proj.weight]  Loading weights:  95%|█████████▌| 379/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.34.mlp.up_proj.weight]Loading weights:  95%|█████████▌| 380/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.34.post_attention_layernorm.weight]Loading weights:  95%|█████████▌| 380/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.34.post_attention_layernorm.weight]Loading weights:  96%|█████████▌| 381/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.34.self_attn.k_norm.weight]        Loading weights:  96%|█████████▌| 381/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.34.self_attn.k_norm.weight]Loading weights:  96%|█████████▌| 382/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.34.self_attn.k_proj.weight]Loading weights:  96%|█████████▌| 382/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.34.self_attn.k_proj.weight]Loading weights:  96%|█████████▌| 383/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.34.self_attn.o_proj.weight]Loading weights:  96%|█████████▌| 383/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.34.self_attn.o_proj.weight]Loading weights:  96%|█████████▋| 384/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.34.self_attn.q_norm.weight]Loading weights:  96%|█████████▋| 384/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.34.self_attn.q_norm.weight]Loading weights:  97%|█████████▋| 385/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.34.self_attn.q_proj.weight]Loading weights:  97%|█████████▋| 385/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.34.self_attn.q_proj.weight]Loading weights:  97%|█████████▋| 386/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.34.self_attn.v_proj.weight]Loading weights:  97%|█████████▋| 386/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.34.self_attn.v_proj.weight]Loading weights:  97%|█████████▋| 387/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.35.input_layernorm.weight] Loading weights:  97%|█████████▋| 387/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.35.input_layernorm.weight]Loading weights:  97%|█████████▋| 388/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.35.mlp.down_proj.weight]  Loading weights:  97%|█████████▋| 388/398 [00:01<00:00, 308.89it/s, Materializing param=model.layers.35.mlp.down_proj.weight]Loading weights:  98%|█████████▊| 389/398 [00:01<00:00, 312.80it/s, Materializing param=model.layers.35.mlp.down_proj.weight]Loading weights:  98%|█████████▊| 389/398 [00:01<00:00, 312.80it/s, Materializing param=model.layers.35.mlp.gate_proj.weight]Loading weights:  98%|█████████▊| 389/398 [00:01<00:00, 312.80it/s, Materializing param=model.layers.35.mlp.gate_proj.weight]Loading weights:  98%|█████████▊| 390/398 [00:01<00:00, 312.80it/s, Materializing param=model.layers.35.mlp.up_proj.weight]  Loading weights:  98%|█████████▊| 390/398 [00:01<00:00, 312.80it/s, Materializing param=model.layers.35.mlp.up_proj.weight]Loading weights:  98%|█████████▊| 391/398 [00:01<00:00, 312.80it/s, Materializing param=model.layers.35.post_attention_layernorm.weight]Loading weights:  98%|█████████▊| 391/398 [00:01<00:00, 312.80it/s, Materializing param=model.layers.35.post_attention_layernorm.weight]Loading weights:  98%|█████████▊| 392/398 [00:01<00:00, 312.80it/s, Materializing param=model.layers.35.self_attn.k_norm.weight]        Loading weights:  98%|█████████▊| 392/398 [00:01<00:00, 312.80it/s, Materializing param=model.layers.35.self_attn.k_norm.weight]Loading weights:  99%|█████████▊| 393/398 [00:01<00:00, 312.80it/s, Materializing param=model.layers.35.self_attn.k_proj.weight]Loading weights:  99%|█████████▊| 393/398 [00:01<00:00, 312.80it/s, Materializing param=model.layers.35.self_attn.k_proj.weight]Loading weights:  99%|█████████▉| 394/398 [00:01<00:00, 312.80it/s, Materializing param=model.layers.35.self_attn.o_proj.weight]Loading weights:  99%|█████████▉| 394/398 [00:01<00:00, 312.80it/s, Materializing param=model.layers.35.self_attn.o_proj.weight]Loading weights:  99%|█████████▉| 395/398 [00:01<00:00, 312.80it/s, Materializing param=model.layers.35.self_attn.q_norm.weight]Loading weights:  99%|█████████▉| 395/398 [00:01<00:00, 312.80it/s, Materializing param=model.layers.35.self_attn.q_norm.weight]Loading weights:  99%|█████████▉| 396/398 [00:01<00:00, 312.80it/s, Materializing param=model.layers.35.self_attn.q_proj.weight]Loading weights:  99%|█████████▉| 396/398 [00:01<00:00, 312.80it/s, Materializing param=model.layers.35.self_attn.q_proj.weight]Loading weights: 100%|█████████▉| 397/398 [00:01<00:00, 312.80it/s, Materializing param=model.layers.35.self_attn.v_proj.weight]Loading weights: 100%|█████████▉| 397/398 [00:01<00:00, 312.80it/s, Materializing param=model.layers.35.self_attn.v_proj.weight]Loading weights: 100%|██████████| 398/398 [00:01<00:00, 312.80it/s, Materializing param=model.norm.weight]                      Loading weights: 100%|██████████| 398/398 [00:01<00:00, 312.80it/s, Materializing param=model.norm.weight]Loading weights: 100%|██████████| 398/398 [00:01<00:00, 277.72it/s, Materializing param=model.norm.weight]
+[2026-03-05 03:32:23,671] [INFO] [axolotl.loaders.model._configure_embedding_dtypes:356] [PID:1482537] Converting modules to torch.bfloat16
+[2026-03-05 03:32:23,678] [DEBUG] [axolotl.loaders.model.log_gpu_memory_usage:127] [PID:1482537] Memory usage after model load 8.942GB (+8.942GB allocated, +8.943GB reserved)
+[2026-03-05 03:32:23,679] [INFO] [axolotl.loaders.adapter.load_lora:81] [PID:1482537] found linear modules: ['down_proj', 'gate_proj', 'k_proj', 'o_proj', 'q_proj', 'up_proj', 'v_proj']
+trainable params: 66,060,288 || all params: 4,088,528,384 || trainable%: 1.6157
+[2026-03-05 03:32:25,436] [DEBUG] [axolotl.loaders.model.log_gpu_memory_usage:127] [PID:1482537] after adapters 7.739GB (+7.739GB allocated, +9.068GB reserved)
+[2026-03-05 03:32:32,110] [INFO] [axolotl.train.save_initial_configs:402] [PID:1482537] Pre-saving adapter config to /home/jiaruil5/math_rl/mix_teachers/r3lit_rl/mix_teachers/checkpoints/math_operations/primitive_atomic_balanced_sft_50k_t20260305...
+[2026-03-05 03:32:32,111] [INFO] [axolotl.train.save_initial_configs:406] [PID:1482537] Pre-saving tokenizer to /home/jiaruil5/math_rl/mix_teachers/r3lit_rl/mix_teachers/checkpoints/math_operations/primitive_atomic_balanced_sft_50k_t20260305...
+[2026-03-05 03:32:32,220] [INFO] [axolotl.train.save_initial_configs:411] [PID:1482537] Pre-saving model config to /home/jiaruil5/math_rl/mix_teachers/r3lit_rl/mix_teachers/checkpoints/math_operations/primitive_atomic_balanced_sft_50k_t20260305...
+[2026-03-05 03:32:32,224] [INFO] [axolotl.train.execute_training:207] [PID:1482537] Starting trainer...
+[2026-03-05 03:32:34,539] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.710932731628418
+[2026-03-05 03:32:35,262] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.7224855422973633
+[2026-03-05 03:32:35,959] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.69549560546875
+[2026-03-05 03:32:36,644] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.6838161945343018
+[2026-03-05 03:32:36,645] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:1482537] gather_len_batches: [4124]
+wandb: [wandb.login()] Loaded credentials for https://api.wandb.ai from WANDB_API_KEY.
+wandb: Currently logged in as: jiaruil5 (mathrl-jiarui) to https://api.wandb.ai. Use `wandb login --relogin` to force relogin
+wandb: setting up run jvnzxtqo
+wandb: Tracking run with wandb version 0.25.0
+wandb: Run data is saved locally in /home/jiaruil5/math_rl/.wandb/run-20260305_033237-jvnzxtqo
+wandb: Run `wandb offline` to turn off syncing.
+wandb: Syncing run qwen3-4b-primitive-atomic-balanced-lora-sft-50k-t20260305
+wandb: ⭐️ View project at https://wandb.ai/mathrl-jiarui/math_operations_sft
+wandb: 🚀 View run at https://wandb.ai/mathrl-jiarui/math_operations_sft/runs/jvnzxtqo
+wandb: Detected [huggingface_hub.inference] in use.
+wandb: Use W&B Weave for improved LLM call tracing. Install Weave with `pip install weave` then add `import weave` to the top of your script.
+wandb: For more information, check out the docs at: https://weave-docs.wandb.ai/
+wandb: WARNING Saving files without folders. If you want to preserve subdirectories pass base_path to wandb.save, i.e. wandb.save("/mnt/folder/file.h5", base_path="/mnt")
+wandb: WARNING Symlinked 1 file into the W&B run directory; call wandb.save again to sync new files.
+[2026-03-05 03:32:40,145] [INFO] [axolotl.utils.callbacks.on_train_begin:757] [PID:1482537] The Axolotl config has been saved to the WandB run under files.
+  0%|          | 0/5150 [00:00<?, ?it/s][2026-03-05 03:32:40,154] [INFO] [axolotl.core.trainers.base.evaluate:400] [PID:1482537] Running evaluation step...
+[2026-03-05 03:32:41,575] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.5580432415008545
+[2026-03-05 03:32:42,103] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.5283553600311279
+[2026-03-05 03:32:42,637] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.5333220958709717
+[2026-03-05 03:32:43,176] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.5389933586120605
+[2026-03-05 03:32:43,177] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:1482537] gather_len_batches: [17]
+
+  0%|          | 0/17 [00:00<?, ?it/s][A
+ 12%|█▏        | 2/17 [00:00<00:04,  3.62it/s][A
+ 18%|█▊        | 3/17 [00:01<00:05,  2.41it/s][A
+ 24%|██▎       | 4/17 [00:01<00:06,  2.05it/s][A
+ 29%|██▉       | 5/17 [00:02<00:06,  1.72it/s][A
+ 35%|███▌      | 6/17 [00:03<00:06,  1.70it/s][A
+ 41%|████      | 7/17 [00:03<00:05,  1.68it/s][A
+ 47%|████▋     | 8/17 [00:04<00:05,  1.67it/s][A
+ 53%|█████▎    | 9/17 [00:05<00:05,  1.48it/s][A
+ 59%|█████▉    | 10/17 [00:05<00:04,  1.53it/s][A
+ 65%|██████▍   | 11/17 [00:06<00:03,  1.55it/s][A
+ 71%|███████   | 12/17 [00:07<00:03,  1.58it/s][A
+ 76%|███████▋  | 13/17 [00:07<00:02,  1.51it/s][A
+ 82%|████████▏ | 14/17 [00:08<00:01,  1.54it/s][A
+ 88%|████████▊ | 15/17 [00:08<00:01,  1.57it/s][A
+ 94%|█████████▍| 16/17 [00:09<00:00,  1.59it/s][ATraceback (most recent call last):
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 300, in _run_finalizers
+    finalizer()
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 224, in __call__
+    res = self._callback(*self._args, **self._kwargs)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 133, in _remove_temp_dir
+    rmtree(tempdir)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 725, in rmtree
+    _rmtree_safe_fd(fd, path, onerror)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 681, in _rmtree_safe_fd
+    onerror(os.unlink, fullname, sys.exc_info())
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 679, in _rmtree_safe_fd
+    os.unlink(entry.name, dir_fd=topfd)
+OSError: [Errno 16] Device or resource busy: '.nfs000000000005b1c2000060a3'
+
+100%|██████████| 17/17 [00:10<00:00,  1.47it/s][A                                        
+                                               [A{'eval_loss': '0.8861', 'eval_runtime': '12.71', 'eval_samples_per_second': '15.74', 'eval_steps_per_second': '7.87', 'eval_ppl': '2.426', 'memory/max_active (GiB)': '13.69', 'memory/max_allocated (GiB)': '13.69', 'memory/device_reserved (GiB)': '13.84', 'epoch': 0}
+  0%|          | 0/5150 [00:15<?, ?it/s]
+100%|██████████| 17/17 [00:10<00:00,  1.47it/s][A
+                                               [A  0%|          | 1/5150 [00:26<38:05:35, 26.63s/it]  0%|          | 2/5150 [00:35<22:53:19, 16.01s/it]  0%|          | 3/5150 [00:43<18:00:39, 12.60s/it]  0%|          | 4/5150 [00:52<15:43:39, 11.00s/it]  0%|          | 5/5150 [01:01<14:41:46, 10.28s/it]  0%|          | 6/5150 [01:09<13:51:39,  9.70s/it]  0%|          | 7/5150 [01:18<13:20:10,  9.34s/it]  0%|          | 8/5150 [01:27<12:59:35,  9.10s/it]  0%|          | 9/5150 [01:35<12:54:32,  9.04s/it]  0%|          | 10/5150 [01:44<12:43:10,  8.91s/it]                                                    {'loss': '0.8739', 'grad_norm': '2.727', 'learning_rate': '3.495e-06', 'ppl': '2.396', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '152.7', 'tokens/total': 163840, 'tokens/trainable': 51656, 'epoch': '0.009699'}
+  0%|          | 10/5150 [01:44<12:43:10,  8.91s/it]  0%|          | 11/5150 [01:53<12:35:24,  8.82s/it]  0%|          | 12/5150 [02:01<12:29:42,  8.75s/it]  0%|          | 13/5150 [02:10<12:25:56,  8.71s/it]  0%|          | 14/5150 [02:19<12:32:07,  8.79s/it]  0%|          | 15/5150 [02:27<12:27:44,  8.74s/it]  0%|          | 16/5150 [02:36<12:25:41,  8.71s/it]  0%|          | 17/5150 [02:45<12:24:58,  8.71s/it]  0%|          | 18/5150 [02:54<12:32:06,  8.79s/it]  0%|          | 19/5150 [03:02<12:28:06,  8.75s/it]  0%|          | 20/5150 [03:11<12:26:04,  8.73s/it]                                                    {'loss': '0.7777', 'grad_norm': '2.239', 'learning_rate': '7.379e-06', 'ppl': '2.176', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '145.7', 'tokens/total': 327680, 'tokens/trainable': 104033, 'epoch': '0.0194'}
+  0%|          | 20/5150 [03:11<12:26:04,  8.73s/it]  0%|          | 21/5150 [03:20<12:24:21,  8.71s/it]  0%|          | 22/5150 [03:28<12:23:00,  8.69s/it]  0%|          | 23/5150 [03:37<12:30:29,  8.78s/it]  0%|          | 24/5150 [03:46<12:26:52,  8.74s/it]  0%|          | 25/5150 [03:55<12:24:26,  8.72s/it]  1%|          | 26/5150 [04:03<12:22:37,  8.70s/it]  1%|          | 27/5150 [04:12<12:29:45,  8.78s/it]  1%|          | 28/5150 [04:21<12:26:15,  8.74s/it]  1%|          | 29/5150 [04:30<12:23:48,  8.71s/it]  1%|          | 30/5150 [04:38<12:22:08,  8.70s/it]                                                    {'loss': '0.5298', 'grad_norm': '1.04', 'learning_rate': '1.126e-05', 'ppl': '1.699', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '142.7', 'tokens/total': 491520, 'tokens/trainable': 156111, 'epoch': '0.0291'}
+  1%|          | 30/5150 [04:38<12:22:08,  8.70s/it]  1%|          | 31/5150 [04:47<12:20:56,  8.68s/it]  1%|          | 32/5150 [04:56<12:28:30,  8.78s/it]  1%|          | 33/5150 [05:05<12:25:02,  8.74s/it]  1%|          | 34/5150 [05:13<12:22:29,  8.71s/it]  1%|          | 35/5150 [05:22<12:20:38,  8.69s/it]  1%|          | 36/5150 [05:31<12:27:32,  8.77s/it]  1%|          | 37/5150 [05:40<12:24:11,  8.73s/it]  1%|          | 38/5150 [05:48<12:21:52,  8.71s/it]  1%|          | 39/5150 [05:57<12:20:37,  8.69s/it]  1%|          | 40/5150 [06:06<12:19:37,  8.68s/it]                                                    {'loss': '0.3001', 'grad_norm': '0.9342', 'learning_rate': '1.515e-05', 'ppl': '1.35', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '142.5', 'tokens/total': 655360, 'tokens/trainable': 207990, 'epoch': '0.0388'}
+  1%|          | 40/5150 [06:06<12:19:37,  8.68s/it]  1%|          | 41/5150 [06:14<12:26:34,  8.77s/it]  1%|          | 42/5150 [06:23<12:23:35,  8.73s/it]  1%|          | 43/5150 [06:32<12:21:29,  8.71s/it]  1%|          | 44/5150 [06:40<12:19:58,  8.70s/it]  1%|          | 45/5150 [06:49<12:27:18,  8.78s/it]  1%|          | 46/5150 [06:58<12:24:49,  8.76s/it]  1%|          | 47/5150 [07:07<12:22:21,  8.73s/it]  1%|          | 48/5150 [07:15<12:20:17,  8.71s/it]  1%|          | 49/5150 [07:24<12:18:59,  8.69s/it]  1%|          | 50/5150 [07:33<12:26:29,  8.78s/it]                                                    {'loss': '0.1617', 'grad_norm': '0.5256', 'learning_rate': '1.903e-05', 'ppl': '1.176', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '140.8', 'tokens/total': 819200, 'tokens/trainable': 260187, 'epoch': '0.0485'}
+  1%|          | 50/5150 [07:33<12:26:29,  8.78s/it]  1%|          | 51/5150 [07:42<12:23:39,  8.75s/it]  1%|          | 52/5150 [07:50<12:20:59,  8.72s/it]  1%|          | 53/5150 [07:59<12:19:08,  8.70s/it]  1%|          | 54/5150 [08:08<12:25:43,  8.78s/it]  1%|          | 55/5150 [08:17<12:22:23,  8.74s/it]  1%|          | 56/5150 [08:25<12:19:31,  8.71s/it]  1%|          | 57/5150 [08:34<12:17:24,  8.69s/it]  1%|          | 58/5150 [08:43<12:16:02,  8.67s/it]  1%|          | 59/5150 [08:52<12:23:33,  8.76s/it]  1%|          | 60/5150 [09:00<12:20:53,  8.73s/it]                                                    {'loss': '0.06448', 'grad_norm': '0.4145', 'learning_rate': '2.291e-05', 'ppl': '1.067', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '146.3', 'tokens/total': 983040, 'tokens/trainable': 312518, 'epoch': '0.0582'}
+  1%|          | 60/5150 [09:00<12:20:53,  8.73s/it]  1%|          | 61/5150 [09:09<12:18:31,  8.71s/it]  1%|          | 62/5150 [09:18<12:16:42,  8.69s/it]  1%|          | 63/5150 [09:26<12:23:07,  8.76s/it]  1%|          | 64/5150 [09:35<12:19:47,  8.73s/it]  1%|▏         | 65/5150 [09:44<12:17:22,  8.70s/it]  1%|▏         | 66/5150 [09:52<12:15:41,  8.68s/it]  1%|▏         | 67/5150 [10:01<12:14:32,  8.67s/it]  1%|▏         | 68/5150 [10:10<12:21:43,  8.76s/it]  1%|▏         | 69/5150 [10:19<12:18:22,  8.72s/it]  1%|▏         | 70/5150 [10:27<12:16:07,  8.69s/it]                                                    {'loss': '0.02022', 'grad_norm': '0.202', 'learning_rate': '2.68e-05', 'ppl': '1.02', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '149.5', 'tokens/total': 1146880, 'tokens/trainable': 364145, 'epoch': '0.0679'}
+  1%|▏         | 70/5150 [10:27<12:16:07,  8.69s/it]  1%|▏         | 71/5150 [10:36<12:14:41,  8.68s/it]  1%|▏         | 72/5150 [10:45<12:21:14,  8.76s/it]  1%|▏         | 73/5150 [10:53<12:18:09,  8.72s/it]  1%|▏         | 74/5150 [11:02<12:15:48,  8.70s/it]  1%|▏         | 75/5150 [11:11<12:14:25,  8.68s/it]  1%|▏         | 76/5150 [11:19<12:13:07,  8.67s/it]  1%|▏         | 77/5150 [11:28<12:19:57,  8.75s/it]  2%|▏         | 78/5150 [11:37<12:17:22,  8.72s/it]  2%|▏         | 79/5150 [11:46<12:15:43,  8.71s/it]  2%|▏         | 80/5150 [11:54<12:14:40,  8.69s/it]                                                    {'loss': '0.007011', 'grad_norm': '0.2349', 'learning_rate': '3.068e-05', 'ppl': '1.007', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '148', 'tokens/total': 1310720, 'tokens/trainable': 415779, 'epoch': '0.07759'}
+  2%|▏         | 80/5150 [11:54<12:14:40,  8.69s/it]  2%|▏         | 81/5150 [12:03<12:21:37,  8.78s/it]  2%|▏         | 82/5150 [12:12<12:18:52,  8.75s/it]  2%|▏         | 83/5150 [12:21<12:17:20,  8.73s/it]  2%|▏         | 84/5150 [12:29<12:17:10,  8.73s/it]  2%|▏         | 85/5150 [12:38<12:16:26,  8.72s/it]  2%|▏         | 86/5150 [12:47<12:22:27,  8.80s/it]  2%|▏         | 87/5150 [12:56<12:18:19,  8.75s/it]  2%|▏         | 88/5150 [13:04<12:15:32,  8.72s/it]  2%|▏         | 89/5150 [13:13<12:13:33,  8.70s/it]  2%|▏         | 90/5150 [13:22<12:19:31,  8.77s/it]                                                    {'loss': '0.003832', 'grad_norm': '0.09275', 'learning_rate': '3.456e-05', 'ppl': '1.004', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '143.2', 'tokens/total': 1474560, 'tokens/trainable': 467665, 'epoch': '0.08729'}
+  2%|▏         | 90/5150 [13:22<12:19:31,  8.77s/it]  2%|▏         | 91/5150 [13:31<12:16:21,  8.73s/it]  2%|▏         | 92/5150 [13:39<12:14:03,  8.71s/it]  2%|▏         | 93/5150 [13:48<12:12:33,  8.69s/it]  2%|▏         | 94/5150 [13:57<12:11:10,  8.68s/it]  2%|▏         | 95/5150 [14:06<12:18:25,  8.76s/it]  2%|▏         | 96/5150 [14:14<12:15:30,  8.73s/it]  2%|▏         | 97/5150 [14:23<12:13:13,  8.71s/it]  2%|▏         | 98/5150 [14:31<12:11:38,  8.69s/it]  2%|▏         | 99/5150 [14:40<12:18:15,  8.77s/it]  2%|▏         | 100/5150 [14:49<12:15:15,  8.74s/it]                                                     {'loss': '0.00359', 'grad_norm': '0.1084', 'learning_rate': '3.845e-05', 'ppl': '1.004', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '148.9', 'tokens/total': 1638400, 'tokens/trainable': 519900, 'epoch': '0.09699'}
+  2%|▏         | 100/5150 [14:49<12:15:15,  8.74s/it]  2%|▏         | 101/5150 [14:58<12:12:58,  8.71s/it]  2%|▏         | 102/5150 [15:06<12:11:13,  8.69s/it]  2%|▏         | 103/5150 [15:15<12:10:01,  8.68s/it]  2%|▏         | 104/5150 [15:24<12:17:14,  8.77s/it]  2%|▏         | 105/5150 [15:33<12:13:57,  8.73s/it]  2%|▏         | 106/5150 [15:41<12:11:47,  8.70s/it]  2%|▏         | 107/5150 [15:50<12:10:05,  8.69s/it]  2%|▏         | 108/5150 [15:59<12:16:31,  8.76s/it]  2%|▏         | 109/5150 [16:08<12:13:22,  8.73s/it]  2%|▏         | 110/5150 [16:16<12:11:13,  8.71s/it]                                                     {'loss': '0.002428', 'grad_norm': '0.06598', 'learning_rate': '4.233e-05', 'ppl': '1.002', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '158.7', 'tokens/total': 1802240, 'tokens/trainable': 571551, 'epoch': '0.1067'}
+  2%|▏         | 110/5150 [16:16<12:11:13,  8.71s/it]  2%|▏         | 111/5150 [16:25<12:09:37,  8.69s/it]  2%|▏         | 112/5150 [16:33<12:08:29,  8.68s/it]  2%|▏         | 113/5150 [16:42<12:15:10,  8.76s/it]  2%|▏         | 114/5150 [16:51<12:14:02,  8.75s/it]  2%|▏         | 115/5150 [17:00<12:12:59,  8.73s/it]  2%|▏         | 116/5150 [17:09<12:10:46,  8.71s/it]  2%|▏         | 117/5150 [17:17<12:16:54,  8.78s/it]  2%|▏         | 118/5150 [17:26<12:13:26,  8.75s/it]  2%|▏         | 119/5150 [17:35<12:10:50,  8.72s/it]  2%|▏         | 120/5150 [17:43<12:08:43,  8.69s/it]                                                     {'loss': '0.001859', 'grad_norm': '0.1041', 'learning_rate': '4.621e-05', 'ppl': '1.002', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '148.4', 'tokens/total': 1966080, 'tokens/trainable': 624011, 'epoch': '0.1164'}
+  2%|▏         | 120/5150 [17:43<12:08:43,  8.69s/it]  2%|▏         | 121/5150 [17:52<12:07:24,  8.68s/it]  2%|▏         | 122/5150 [18:01<12:13:59,  8.76s/it]  2%|▏         | 123/5150 [18:10<12:10:47,  8.72s/it]  2%|▏         | 124/5150 [18:18<12:08:31,  8.70s/it]  2%|▏         | 125/5150 [18:27<12:06:48,  8.68s/it]  2%|▏         | 126/5150 [18:36<12:13:29,  8.76s/it]  2%|▏         | 127/5150 [18:45<12:10:19,  8.72s/it]  2%|▏         | 128/5150 [18:53<12:08:05,  8.70s/it]  3%|▎         | 129/5150 [19:02<12:06:45,  8.68s/it]  3%|▎         | 130/5150 [19:11<12:13:24,  8.77s/it]                                                     {'loss': '0.002001', 'grad_norm': '0.1873', 'learning_rate': '5.01e-05', 'ppl': '1.002', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '142.2', 'tokens/total': 2129920, 'tokens/trainable': 675829, 'epoch': '0.1261'}
+  3%|▎         | 130/5150 [19:11<12:13:24,  8.77s/it]  3%|▎         | 131/5150 [19:19<12:10:13,  8.73s/it]  3%|▎         | 132/5150 [19:28<12:07:46,  8.70s/it]  3%|▎         | 133/5150 [19:37<12:06:01,  8.68s/it]  3%|▎         | 134/5150 [19:45<12:04:43,  8.67s/it]  3%|▎         | 135/5150 [19:54<12:11:42,  8.75s/it]  3%|▎         | 136/5150 [20:03<12:08:44,  8.72s/it]  3%|▎         | 137/5150 [20:12<12:06:26,  8.69s/it]  3%|▎         | 138/5150 [20:20<12:04:55,  8.68s/it]  3%|▎         | 139/5150 [20:29<12:11:35,  8.76s/it]  3%|▎         | 140/5150 [20:38<12:08:21,  8.72s/it]                                                     {'loss': '0.001709', 'grad_norm': '0.05408', 'learning_rate': '5.398e-05', 'ppl': '1.002', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '146.6', 'tokens/total': 2293760, 'tokens/trainable': 727558, 'epoch': '0.1358'}
+  3%|▎         | 140/5150 [20:38<12:08:21,  8.72s/it]  3%|▎         | 141/5150 [20:46<12:06:09,  8.70s/it]  3%|▎         | 142/5150 [20:55<12:04:32,  8.68s/it]  3%|▎         | 143/5150 [21:04<12:03:23,  8.67s/it]  3%|▎         | 144/5150 [21:13<12:10:09,  8.75s/it]  3%|▎         | 145/5150 [21:21<12:07:22,  8.72s/it]  3%|▎         | 146/5150 [21:30<12:05:11,  8.70s/it]  3%|▎         | 147/5150 [21:39<12:03:39,  8.68s/it]  3%|▎         | 148/5150 [21:48<12:10:28,  8.76s/it]  3%|▎         | 149/5150 [21:56<12:08:20,  8.74s/it]  3%|▎         | 150/5150 [22:05<12:06:21,  8.72s/it]                                                     {'loss': '0.001349', 'grad_norm': '0.04418', 'learning_rate': '5.786e-05', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '139.7', 'tokens/total': 2457600, 'tokens/trainable': 779487, 'epoch': '0.1455'}
+  3%|▎         | 150/5150 [22:05<12:06:21,  8.72s/it]  3%|▎         | 151/5150 [22:14<12:04:41,  8.70s/it]  3%|▎         | 152/5150 [22:22<12:03:27,  8.68s/it]  3%|▎         | 153/5150 [22:31<12:11:13,  8.78s/it]  3%|▎         | 154/5150 [22:40<12:07:43,  8.74s/it]  3%|▎         | 155/5150 [22:49<12:06:45,  8.73s/it]  3%|▎         | 156/5150 [22:57<12:06:17,  8.73s/it]  3%|▎         | 157/5150 [23:06<12:13:22,  8.81s/it]  3%|▎         | 158/5150 [23:15<12:09:13,  8.76s/it]  3%|▎         | 159/5150 [23:24<12:06:25,  8.73s/it]  3%|▎         | 160/5150 [23:32<12:05:49,  8.73s/it]                                                     {'loss': '0.00177', 'grad_norm': '0.06136', 'learning_rate': '6.175e-05', 'ppl': '1.002', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '145.6', 'tokens/total': 2621440, 'tokens/trainable': 831190, 'epoch': '0.1552'}
+  3%|▎         | 160/5150 [23:32<12:05:49,  8.73s/it]  3%|▎         | 161/5150 [23:41<12:04:49,  8.72s/it]  3%|▎         | 162/5150 [23:50<12:12:44,  8.81s/it]  3%|▎         | 163/5150 [23:59<12:09:57,  8.78s/it]  3%|▎         | 164/5150 [24:07<12:07:11,  8.75s/it]  3%|▎         | 165/5150 [24:16<12:04:57,  8.73s/it]  3%|▎         | 166/5150 [24:25<12:10:56,  8.80s/it]  3%|▎         | 167/5150 [24:34<12:07:14,  8.76s/it]  3%|▎         | 168/5150 [24:42<12:04:37,  8.73s/it]  3%|▎         | 169/5150 [24:51<12:02:21,  8.70s/it]  3%|▎         | 170/5150 [25:00<12:01:18,  8.69s/it]                                                     {'loss': '0.001014', 'grad_norm': '0.03861', 'learning_rate': '6.563e-05', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '146.9', 'tokens/total': 2785280, 'tokens/trainable': 882479, 'epoch': '0.1649'}
+  3%|▎         | 170/5150 [25:00<12:01:18,  8.69s/it]  3%|▎         | 171/5150 [25:09<12:08:30,  8.78s/it]  3%|▎         | 172/5150 [25:17<12:05:04,  8.74s/it]  3%|▎         | 173/5150 [25:26<12:02:32,  8.71s/it]  3%|▎         | 174/5150 [25:35<12:01:28,  8.70s/it]  3%|▎         | 175/5150 [25:44<12:08:54,  8.79s/it]  3%|▎         | 176/5150 [25:52<12:05:43,  8.75s/it]  3%|▎         | 177/5150 [26:01<12:03:21,  8.73s/it]  3%|▎         | 178/5150 [26:10<12:01:41,  8.71s/it]  3%|▎         | 179/5150 [26:19<12:09:06,  8.80s/it]  3%|▎         | 180/5150 [26:27<12:05:43,  8.76s/it]                                                     {'loss': '0.001122', 'grad_norm': '0.0491', 'learning_rate': '6.951e-05', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '161', 'tokens/total': 2949120, 'tokens/trainable': 934596, 'epoch': '0.1746'}
+  3%|▎         | 180/5150 [26:27<12:05:43,  8.76s/it]  4%|▎         | 181/5150 [26:36<12:03:00,  8.73s/it]  4%|▎         | 182/5150 [26:45<12:01:07,  8.71s/it]  4%|▎         | 183/5150 [26:53<12:00:13,  8.70s/it]  4%|▎         | 184/5150 [27:02<12:06:35,  8.78s/it]  4%|▎         | 185/5150 [27:11<12:03:18,  8.74s/it]  4%|▎         | 186/5150 [27:20<12:00:41,  8.71s/it]  4%|▎         | 187/5150 [27:28<11:58:57,  8.69s/it]  4%|▎         | 188/5150 [27:37<12:06:14,  8.78s/it]  4%|▎         | 189/5150 [27:46<12:03:23,  8.75s/it]  4%|▎         | 190/5150 [27:55<12:01:12,  8.72s/it]                                                     {'loss': '0.0009867', 'grad_norm': '0.07178', 'learning_rate': '7.34e-05', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '149.2', 'tokens/total': 3112960, 'tokens/trainable': 986671, 'epoch': '0.1843'}
+  4%|▎         | 190/5150 [27:55<12:01:12,  8.72s/it]  4%|▎         | 191/5150 [28:03<11:59:22,  8.70s/it]  4%|▎         | 192/5150 [28:12<11:57:55,  8.69s/it]  4%|▎         | 193/5150 [28:21<12:04:37,  8.77s/it]  4%|▍         | 194/5150 [28:29<12:01:26,  8.73s/it]  4%|▍         | 195/5150 [28:38<11:59:15,  8.71s/it]  4%|▍         | 196/5150 [28:47<11:57:22,  8.69s/it]  4%|▍         | 197/5150 [28:56<12:04:02,  8.77s/it]  4%|▍         | 198/5150 [29:04<12:00:43,  8.73s/it]  4%|▍         | 199/5150 [29:13<11:58:08,  8.70s/it]  4%|▍         | 200/5150 [29:22<11:56:21,  8.68s/it]                                                     {'loss': '0.000981', 'grad_norm': '0.02676', 'learning_rate': '7.728e-05', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '143.9', 'tokens/total': 3276800, 'tokens/trainable': 1038208, 'epoch': '0.194'}
+  4%|▍         | 200/5150 [29:22<11:56:21,  8.68s/it]  4%|▍         | 201/5150 [29:30<11:55:19,  8.67s/it]  4%|▍         | 202/5150 [29:39<12:03:08,  8.77s/it]  4%|▍         | 203/5150 [29:48<11:59:51,  8.73s/it]  4%|▍         | 204/5150 [29:57<11:57:22,  8.70s/it]  4%|▍         | 205/5150 [30:05<11:55:30,  8.68s/it]  4%|▍         | 206/5150 [30:14<12:01:42,  8.76s/it]  4%|▍         | 207/5150 [30:23<11:58:30,  8.72s/it]  4%|▍         | 208/5150 [30:31<11:56:14,  8.70s/it]  4%|▍         | 209/5150 [30:40<11:54:45,  8.68s/it]  4%|▍         | 210/5150 [30:49<11:54:08,  8.67s/it]                                                     {'loss': '0.0009109', 'grad_norm': '0.04082', 'learning_rate': '8.117e-05', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '146.8', 'tokens/total': 3440640, 'tokens/trainable': 1090290, 'epoch': '0.2037'}
+  4%|▍         | 210/5150 [30:49<11:54:08,  8.67s/it]  4%|▍         | 211/5150 [30:58<12:01:49,  8.77s/it]  4%|▍         | 212/5150 [31:06<11:59:04,  8.74s/it]  4%|▍         | 213/5150 [31:15<11:57:05,  8.71s/it]  4%|▍         | 214/5150 [31:24<11:55:30,  8.70s/it]  4%|▍         | 215/5150 [31:33<12:02:12,  8.78s/it]  4%|▍         | 216/5150 [31:41<11:58:54,  8.74s/it]  4%|▍         | 217/5150 [31:50<11:57:34,  8.73s/it]  4%|▍         | 218/5150 [31:59<11:55:19,  8.70s/it]  4%|▍         | 219/5150 [32:07<11:53:33,  8.68s/it]  4%|▍         | 220/5150 [32:16<12:00:03,  8.76s/it]                                                     {'loss': '0.0006361', 'grad_norm': '0.0259', 'learning_rate': '8.505e-05', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '144.2', 'tokens/total': 3604480, 'tokens/trainable': 1141701, 'epoch': '0.2134'}
+  4%|▍         | 220/5150 [32:16<12:00:03,  8.76s/it]  4%|▍         | 221/5150 [32:25<11:57:17,  8.73s/it]  4%|▍         | 222/5150 [32:34<11:55:56,  8.72s/it]  4%|▍         | 223/5150 [32:42<11:55:20,  8.71s/it]  4%|▍         | 224/5150 [32:51<12:01:54,  8.79s/it]  4%|▍         | 225/5150 [33:00<11:58:06,  8.75s/it]  4%|▍         | 226/5150 [33:09<11:55:27,  8.72s/it]  4%|▍         | 227/5150 [33:17<11:54:01,  8.70s/it]  4%|▍         | 228/5150 [33:26<11:54:04,  8.70s/it]  4%|▍         | 229/5150 [33:35<12:00:58,  8.79s/it]  4%|▍         | 230/5150 [33:44<11:59:22,  8.77s/it]                                                     {'loss': '0.001428', 'grad_norm': '0.07115', 'learning_rate': '8.893e-05', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '156.8', 'tokens/total': 3768320, 'tokens/trainable': 1193902, 'epoch': '0.2231'}
+  4%|▍         | 230/5150 [33:44<11:59:22,  8.77s/it]  4%|▍         | 231/5150 [33:52<11:57:44,  8.75s/it]  5%|▍         | 232/5150 [34:01<11:56:20,  8.74s/it]  5%|▍         | 233/5150 [34:10<12:02:12,  8.81s/it]  5%|▍         | 234/5150 [34:19<11:58:15,  8.77s/it]  5%|▍         | 235/5150 [34:27<11:55:50,  8.74s/it]  5%|▍         | 236/5150 [34:36<11:53:35,  8.71s/it]  5%|▍         | 237/5150 [34:45<11:51:48,  8.69s/it]  5%|▍         | 238/5150 [34:54<11:58:34,  8.78s/it]  5%|▍         | 239/5150 [35:02<11:55:14,  8.74s/it]  5%|▍         | 240/5150 [35:11<11:52:35,  8.71s/it]                                                     {'loss': '0.00153', 'grad_norm': '0.1277', 'learning_rate': '9.282e-05', 'ppl': '1.002', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '155', 'tokens/total': 3932160, 'tokens/trainable': 1245574, 'epoch': '0.2328'}
+  5%|▍         | 240/5150 [35:11<11:52:35,  8.71s/it]  5%|▍         | 241/5150 [35:20<11:50:50,  8.69s/it]  5%|▍         | 242/5150 [35:29<11:57:09,  8.77s/it]  5%|▍         | 243/5150 [35:37<11:54:19,  8.73s/it]  5%|▍         | 244/5150 [35:46<11:51:52,  8.71s/it]  5%|▍         | 245/5150 [35:54<11:50:15,  8.69s/it]  5%|▍         | 246/5150 [36:03<11:50:10,  8.69s/it]  5%|▍         | 247/5150 [36:12<11:57:19,  8.78s/it]  5%|▍         | 248/5150 [36:21<11:54:44,  8.75s/it]  5%|▍         | 249/5150 [36:29<11:52:55,  8.73s/it]  5%|▍         | 250/5150 [36:38<11:51:09,  8.71s/it]                                                     {'loss': '0.0009477', 'grad_norm': '0.03501', 'learning_rate': '9.67e-05', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '141.4', 'tokens/total': 4096000, 'tokens/trainable': 1296475, 'epoch': '0.2425'}
+  5%|▍         | 250/5150 [36:38<11:51:09,  8.71s/it]  5%|▍         | 251/5150 [36:47<11:49:26,  8.69s/it]  5%|▍         | 252/5150 [36:56<11:55:48,  8.77s/it]  5%|▍         | 253/5150 [37:04<11:52:24,  8.73s/it]  5%|▍         | 254/5150 [37:13<11:49:59,  8.70s/it]  5%|▍         | 255/5150 [37:22<11:48:20,  8.68s/it]  5%|▍         | 256/5150 [37:31<11:54:13,  8.76s/it]  5%|▍         | 257/5150 [37:39<11:51:10,  8.72s/it]  5%|▌         | 258/5150 [37:48<11:48:46,  8.69s/it]  5%|▌         | 259/5150 [37:57<11:47:43,  8.68s/it]  5%|▌         | 260/5150 [38:05<11:54:37,  8.77s/it]                                                     {'loss': '0.001129', 'grad_norm': '0.02433', 'learning_rate': '0.0001006', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '159.3', 'tokens/total': 4259840, 'tokens/trainable': 1347769, 'epoch': '0.2522'}
+  5%|▌         | 260/5150 [38:05<11:54:37,  8.77s/it]  5%|▌         | 261/5150 [38:14<11:51:19,  8.73s/it]  5%|▌         | 262/5150 [38:23<11:48:58,  8.70s/it]  5%|▌         | 263/5150 [38:31<11:47:47,  8.69s/it]  5%|▌         | 264/5150 [38:40<11:47:08,  8.68s/it]  5%|▌         | 265/5150 [38:49<11:53:35,  8.76s/it]  5%|▌         | 266/5150 [38:58<11:50:28,  8.73s/it]  5%|▌         | 267/5150 [39:06<11:48:00,  8.70s/it]  5%|▌         | 268/5150 [39:15<11:46:11,  8.68s/it]  5%|▌         | 269/5150 [39:24<11:52:20,  8.76s/it]  5%|▌         | 270/5150 [39:33<11:49:15,  8.72s/it]                                                     {'loss': '0.0008294', 'grad_norm': '0.09118', 'learning_rate': '0.0001045', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '155.7', 'tokens/total': 4423680, 'tokens/trainable': 1400165, 'epoch': '0.2619'}
+  5%|▌         | 270/5150 [39:33<11:49:15,  8.72s/it]  5%|▌         | 271/5150 [39:41<11:47:06,  8.70s/it]  5%|▌         | 272/5150 [39:50<11:45:30,  8.68s/it]  5%|▌         | 273/5150 [39:58<11:44:24,  8.67s/it]  5%|▌         | 274/5150 [40:07<11:51:05,  8.75s/it]  5%|▌         | 275/5150 [40:16<11:48:13,  8.72s/it]  5%|▌         | 276/5150 [40:25<11:46:04,  8.69s/it]  5%|▌         | 277/5150 [40:33<11:44:35,  8.68s/it]  5%|▌         | 278/5150 [40:42<11:51:18,  8.76s/it]  5%|▌         | 279/5150 [40:51<11:48:12,  8.72s/it]  5%|▌         | 280/5150 [41:00<11:46:31,  8.70s/it]                                                     {'loss': '0.001042', 'grad_norm': '0.04328', 'learning_rate': '0.0001083', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '144.4', 'tokens/total': 4587520, 'tokens/trainable': 1451810, 'epoch': '0.2716'}
+  5%|▌         | 280/5150 [41:00<11:46:31,  8.70s/it]  5%|▌         | 281/5150 [41:08<11:46:00,  8.70s/it]  5%|▌         | 282/5150 [41:17<11:46:36,  8.71s/it]  5%|▌         | 283/5150 [41:26<11:54:23,  8.81s/it]  6%|▌         | 284/5150 [41:35<11:50:27,  8.76s/it]  6%|▌         | 285/5150 [41:43<11:49:26,  8.75s/it]  6%|▌         | 286/5150 [41:52<11:48:52,  8.74s/it]  6%|▌         | 287/5150 [42:01<11:55:54,  8.83s/it]  6%|▌         | 288/5150 [42:10<11:52:10,  8.79s/it]  6%|▌         | 289/5150 [42:19<11:49:14,  8.75s/it]  6%|▌         | 290/5150 [42:27<11:47:39,  8.74s/it]                                                     {'loss': '0.0004325', 'grad_norm': '0.1223', 'learning_rate': '0.0001122', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '152.8', 'tokens/total': 4751360, 'tokens/trainable': 1503733, 'epoch': '0.2813'}
+  6%|▌         | 290/5150 [42:27<11:47:39,  8.74s/it]  6%|▌         | 291/5150 [42:36<11:46:25,  8.72s/it]  6%|▌         | 292/5150 [42:45<11:53:54,  8.82s/it]  6%|▌         | 293/5150 [42:54<11:50:20,  8.77s/it]  6%|▌         | 294/5150 [43:02<11:47:47,  8.75s/it]  6%|▌         | 295/5150 [43:11<11:46:36,  8.73s/it]  6%|▌         | 296/5150 [43:20<11:52:26,  8.81s/it]  6%|▌         | 297/5150 [43:29<11:48:51,  8.76s/it]  6%|▌         | 298/5150 [43:37<11:45:55,  8.73s/it]  6%|▌         | 299/5150 [43:46<11:43:46,  8.70s/it]  6%|▌         | 300/5150 [43:55<11:42:27,  8.69s/it]                                                     {'loss': '0.0008599', 'grad_norm': '0.01777', 'learning_rate': '0.0001161', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '153.9', 'tokens/total': 4915200, 'tokens/trainable': 1555670, 'epoch': '0.291'}
+  6%|▌         | 300/5150 [43:55<11:42:27,  8.69s/it]  6%|▌         | 301/5150 [44:04<11:48:46,  8.77s/it]  6%|▌         | 302/5150 [44:12<11:46:30,  8.74s/it]  6%|▌         | 303/5150 [44:21<11:45:19,  8.73s/it]  6%|▌         | 304/5150 [44:30<11:44:21,  8.72s/it]  6%|▌         | 305/5150 [44:39<11:51:41,  8.81s/it]  6%|▌         | 306/5150 [44:47<11:49:00,  8.78s/it]  6%|▌         | 307/5150 [44:56<11:46:52,  8.76s/it]  6%|▌         | 308/5150 [45:05<11:45:04,  8.74s/it]  6%|▌         | 309/5150 [45:13<11:43:39,  8.72s/it]  6%|▌         | 310/5150 [45:22<11:49:48,  8.80s/it]                                                     {'loss': '0.0009042', 'grad_norm': '0.02133', 'learning_rate': '0.00012', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '146.6', 'tokens/total': 5079040, 'tokens/trainable': 1607550, 'epoch': '0.3007'}
+  6%|▌         | 310/5150 [45:22<11:49:48,  8.80s/it]  6%|▌         | 311/5150 [45:31<11:46:02,  8.75s/it]  6%|▌         | 312/5150 [45:40<11:43:32,  8.73s/it]  6%|▌         | 313/5150 [45:48<11:41:24,  8.70s/it]  6%|▌         | 314/5150 [45:57<11:47:43,  8.78s/it]  6%|▌         | 315/5150 [46:06<11:44:35,  8.74s/it]  6%|▌         | 316/5150 [46:15<11:42:39,  8.72s/it]  6%|▌         | 317/5150 [46:23<11:41:51,  8.71s/it]  6%|▌         | 318/5150 [46:32<11:40:19,  8.70s/it]  6%|▌         | 319/5150 [46:41<11:46:36,  8.78s/it]  6%|▌         | 320/5150 [46:50<11:43:41,  8.74s/it]                                                     {'loss': '0.0007411', 'grad_norm': '0.006358', 'learning_rate': '0.0001239', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '144.5', 'tokens/total': 5242880, 'tokens/trainable': 1659862, 'epoch': '0.3104'}
+  6%|▌         | 320/5150 [46:50<11:43:41,  8.74s/it]  6%|▌         | 321/5150 [46:58<11:41:43,  8.72s/it]  6%|▋         | 322/5150 [47:07<11:39:43,  8.70s/it]  6%|▋         | 323/5150 [47:16<11:45:36,  8.77s/it]  6%|▋         | 324/5150 [47:25<11:42:00,  8.73s/it]  6%|▋         | 325/5150 [47:33<11:39:37,  8.70s/it]  6%|▋         | 326/5150 [47:42<11:37:51,  8.68s/it]  6%|▋         | 327/5150 [47:50<11:36:35,  8.67s/it]  6%|▋         | 328/5150 [47:59<11:43:37,  8.76s/it]  6%|▋         | 329/5150 [48:08<11:40:44,  8.72s/it]  6%|▋         | 330/5150 [48:17<11:38:29,  8.70s/it]                                                     {'loss': '0.0007738', 'grad_norm': '0.01769', 'learning_rate': '0.0001278', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '150.9', 'tokens/total': 5406720, 'tokens/trainable': 1711845, 'epoch': '0.3201'}
+  6%|▋         | 330/5150 [48:17<11:38:29,  8.70s/it]  6%|▋         | 331/5150 [48:25<11:36:55,  8.68s/it]  6%|▋         | 332/5150 [48:34<11:43:27,  8.76s/it]  6%|▋         | 333/5150 [48:43<11:40:19,  8.72s/it]  6%|▋         | 334/5150 [48:52<11:38:19,  8.70s/it]  7%|▋         | 335/5150 [49:00<11:36:35,  8.68s/it]  7%|▋         | 336/5150 [49:09<11:35:24,  8.67s/it]  7%|▋         | 337/5150 [49:18<11:41:39,  8.75s/it]  7%|▋         | 338/5150 [49:26<11:38:48,  8.71s/it]  7%|▋         | 339/5150 [49:35<11:36:46,  8.69s/it]  7%|▋         | 340/5150 [49:44<11:35:16,  8.67s/it]                                                     {'loss': '0.0014', 'grad_norm': '0.03394', 'learning_rate': '0.0001317', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '156.7', 'tokens/total': 5570560, 'tokens/trainable': 1763907, 'epoch': '0.3298'}
+  7%|▋         | 340/5150 [49:44<11:35:16,  8.67s/it]  7%|▋         | 341/5150 [49:53<11:41:58,  8.76s/it]  7%|▋         | 342/5150 [50:01<11:38:40,  8.72s/it]  7%|▋         | 343/5150 [50:10<11:36:26,  8.69s/it]  7%|▋         | 344/5150 [50:18<11:34:48,  8.67s/it]  7%|▋         | 345/5150 [50:27<11:33:53,  8.66s/it]  7%|▋         | 346/5150 [50:36<11:41:51,  8.77s/it]  7%|▋         | 347/5150 [50:45<11:40:17,  8.75s/it]  7%|▋         | 348/5150 [50:54<11:38:39,  8.73s/it]  7%|▋         | 349/5150 [51:02<11:37:35,  8.72s/it]  7%|▋         | 350/5150 [51:11<11:43:51,  8.80s/it]                                                     {'loss': '0.0007723', 'grad_norm': '0.01845', 'learning_rate': '0.0001355', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '147', 'tokens/total': 5734400, 'tokens/trainable': 1816014, 'epoch': '0.3395'}
+  7%|▋         | 350/5150 [51:11<11:43:51,  8.80s/it]  7%|▋         | 351/5150 [51:20<11:40:36,  8.76s/it]  7%|▋         | 352/5150 [51:29<11:39:03,  8.74s/it]  7%|▋         | 353/5150 [51:37<11:36:57,  8.72s/it]  7%|▋         | 354/5150 [51:46<11:35:30,  8.70s/it]  7%|▋         | 355/5150 [51:55<11:42:03,  8.78s/it]  7%|▋         | 356/5150 [52:04<11:38:45,  8.75s/it]  7%|▋         | 357/5150 [52:12<11:36:06,  8.71s/it]  7%|▋         | 358/5150 [52:21<11:34:04,  8.69s/it]  7%|▋         | 359/5150 [52:30<11:40:47,  8.78s/it]  7%|▋         | 360/5150 [52:38<11:38:14,  8.75s/it]                                                     {'loss': '0.0007316', 'grad_norm': '0.04702', 'learning_rate': '0.0001394', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '152.2', 'tokens/total': 5898240, 'tokens/trainable': 1867847, 'epoch': '0.3492'}
+  7%|▋         | 360/5150 [52:38<11:38:14,  8.75s/it]  7%|▋         | 361/5150 [52:47<11:36:25,  8.73s/it]  7%|▋         | 362/5150 [52:56<11:35:01,  8.71s/it]  7%|▋         | 363/5150 [53:04<11:33:26,  8.69s/it]  7%|▋         | 364/5150 [53:13<11:40:25,  8.78s/it]  7%|▋         | 365/5150 [53:22<11:36:54,  8.74s/it]  7%|▋         | 366/5150 [53:31<11:34:26,  8.71s/it]  7%|▋         | 367/5150 [53:39<11:32:32,  8.69s/it]  7%|▋         | 368/5150 [53:48<11:39:52,  8.78s/it]  7%|▋         | 369/5150 [53:57<11:36:20,  8.74s/it]  7%|▋         | 370/5150 [54:06<11:33:59,  8.71s/it]                                                     {'loss': '0.001386', 'grad_norm': '0.02502', 'learning_rate': '0.0001433', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '156.9', 'tokens/total': 6062080, 'tokens/trainable': 1919608, 'epoch': '0.3589'}
+  7%|▋         | 370/5150 [54:06<11:33:59,  8.71s/it]  7%|▋         | 371/5150 [54:14<11:32:23,  8.69s/it]  7%|▋         | 372/5150 [54:23<11:31:18,  8.68s/it]  7%|▋         | 373/5150 [54:32<11:37:29,  8.76s/it]  7%|▋         | 374/5150 [54:41<11:34:30,  8.72s/it]  7%|▋         | 375/5150 [54:49<11:32:30,  8.70s/it]  7%|▋         | 376/5150 [54:58<11:31:00,  8.68s/it]  7%|▋         | 377/5150 [55:07<11:37:04,  8.76s/it]  7%|▋         | 378/5150 [55:15<11:34:46,  8.74s/it]  7%|▋         | 379/5150 [55:24<11:32:44,  8.71s/it]  7%|▋         | 380/5150 [55:33<11:30:57,  8.69s/it]                                                     {'loss': '0.0009342', 'grad_norm': '0.07583', 'learning_rate': '0.0001472', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '139', 'tokens/total': 6225920, 'tokens/trainable': 1971369, 'epoch': '0.3686'}
+  7%|▋         | 380/5150 [55:33<11:30:57,  8.69s/it]  7%|▋         | 381/5150 [55:41<11:29:43,  8.68s/it]  7%|▋         | 382/5150 [55:50<11:37:11,  8.77s/it]  7%|▋         | 383/5150 [55:59<11:33:51,  8.73s/it]  7%|▋         | 384/5150 [56:08<11:31:38,  8.71s/it]  7%|▋         | 385/5150 [56:16<11:30:42,  8.70s/it]  7%|▋         | 386/5150 [56:25<11:36:26,  8.77s/it]  8%|▊         | 387/5150 [56:34<11:32:54,  8.73s/it]  8%|▊         | 388/5150 [56:43<11:30:23,  8.70s/it]  8%|▊         | 389/5150 [56:51<11:28:32,  8.68s/it]  8%|▊         | 390/5150 [57:00<11:27:23,  8.66s/it]                                                     {'loss': '0.0008192', 'grad_norm': '0.005271', 'learning_rate': '0.0001511', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '162.7', 'tokens/total': 6389760, 'tokens/trainable': 2023470, 'epoch': '0.3783'}
+  8%|▊         | 390/5150 [57:00<11:27:23,  8.66s/it]  8%|▊         | 391/5150 [57:09<11:34:06,  8.75s/it]  8%|▊         | 392/5150 [57:17<11:31:06,  8.72s/it]  8%|▊         | 393/5150 [57:26<11:29:03,  8.69s/it]  8%|▊         | 394/5150 [57:35<11:27:36,  8.67s/it]  8%|▊         | 395/5150 [57:44<11:33:31,  8.75s/it]  8%|▊         | 396/5150 [57:52<11:30:37,  8.72s/it]  8%|▊         | 397/5150 [58:01<11:28:33,  8.69s/it]  8%|▊         | 398/5150 [58:10<11:27:14,  8.68s/it]  8%|▊         | 399/5150 [58:18<11:26:33,  8.67s/it]  8%|▊         | 400/5150 [58:27<11:32:58,  8.75s/it]                                                     {'loss': '0.0005521', 'grad_norm': '0.00693', 'learning_rate': '0.000155', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '154.2', 'tokens/total': 6553600, 'tokens/trainable': 2075909, 'epoch': '0.388'}
+  8%|▊         | 400/5150 [58:27<11:32:58,  8.75s/it]  8%|▊         | 401/5150 [58:36<11:30:02,  8.72s/it]  8%|▊         | 402/5150 [58:44<11:27:49,  8.69s/it]  8%|▊         | 403/5150 [58:53<11:26:20,  8.68s/it]  8%|▊         | 404/5150 [59:02<11:32:53,  8.76s/it]  8%|▊         | 405/5150 [59:11<11:29:45,  8.72s/it]  8%|▊         | 406/5150 [59:19<11:27:23,  8.69s/it]  8%|▊         | 407/5150 [59:28<11:25:43,  8.67s/it]  8%|▊         | 408/5150 [59:36<11:24:26,  8.66s/it]  8%|▊         | 409/5150 [59:45<11:30:45,  8.74s/it]  8%|▊         | 410/5150 [59:54<11:28:04,  8.71s/it]                                                     {'loss': '0.00107', 'grad_norm': '0.05802', 'learning_rate': '0.0001588', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '159.9', 'tokens/total': 6717440, 'tokens/trainable': 2127395, 'epoch': '0.3977'}
+  8%|▊         | 410/5150 [59:54<11:28:04,  8.71s/it]  8%|▊         | 411/5150 [1:00:03<11:26:09,  8.69s/it]  8%|▊         | 412/5150 [1:00:11<11:25:19,  8.68s/it]  8%|▊         | 413/5150 [1:00:20<11:32:19,  8.77s/it]  8%|▊         | 414/5150 [1:00:29<11:29:47,  8.74s/it]  8%|▊         | 415/5150 [1:00:38<11:27:44,  8.71s/it]  8%|▊         | 416/5150 [1:00:46<11:25:58,  8.69s/it]  8%|▊         | 417/5150 [1:00:55<11:24:46,  8.68s/it]  8%|▊         | 418/5150 [1:01:04<11:31:31,  8.77s/it]  8%|▊         | 419/5150 [1:01:13<11:28:45,  8.73s/it]  8%|▊         | 420/5150 [1:01:21<11:26:48,  8.71s/it]                                                       {'loss': '0.0001787', 'grad_norm': '0.005753', 'learning_rate': '0.0001627', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '153.6', 'tokens/total': 6881280, 'tokens/trainable': 2180019, 'epoch': '0.4074'}
+  8%|▊         | 420/5150 [1:01:21<11:26:48,  8.71s/it]  8%|▊         | 421/5150 [1:01:30<11:25:19,  8.70s/it]  8%|▊         | 422/5150 [1:01:39<11:31:26,  8.77s/it]  8%|▊         | 423/5150 [1:01:48<11:28:16,  8.74s/it]  8%|▊         | 424/5150 [1:01:56<11:26:37,  8.72s/it]  8%|▊         | 425/5150 [1:02:05<11:25:16,  8.70s/it]  8%|▊         | 426/5150 [1:02:14<11:24:30,  8.69s/it]  8%|▊         | 427/5150 [1:02:22<11:31:04,  8.78s/it]  8%|▊         | 428/5150 [1:02:31<11:28:05,  8.74s/it]  8%|▊         | 429/5150 [1:02:40<11:26:01,  8.72s/it]  8%|▊         | 430/5150 [1:02:48<11:24:39,  8.70s/it]                                                       {'loss': '0.0004083', 'grad_norm': '0.1556', 'learning_rate': '0.0001666', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '143.3', 'tokens/total': 7045120, 'tokens/trainable': 2231263, 'epoch': '0.4171'}
+  8%|▊         | 430/5150 [1:02:48<11:24:39,  8.70s/it]  8%|▊         | 431/5150 [1:02:57<11:31:03,  8.79s/it]  8%|▊         | 432/5150 [1:03:06<11:28:17,  8.75s/it]  8%|▊         | 433/5150 [1:03:15<11:26:36,  8.73s/it]  8%|▊         | 434/5150 [1:03:24<11:25:20,  8.72s/it]  8%|▊         | 435/5150 [1:03:32<11:23:39,  8.70s/it]  8%|▊         | 436/5150 [1:03:41<11:29:34,  8.78s/it]  8%|▊         | 437/5150 [1:03:50<11:26:40,  8.74s/it]  9%|▊         | 438/5150 [1:03:58<11:24:27,  8.72s/it]  9%|▊         | 439/5150 [1:04:07<11:23:01,  8.70s/it]  9%|▊         | 440/5150 [1:04:16<11:30:12,  8.79s/it]                                                       {'loss': '0.0007409', 'grad_norm': '0.0358', 'learning_rate': '0.0001705', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '141.4', 'tokens/total': 7208960, 'tokens/trainable': 2282706, 'epoch': '0.4268'}
+  9%|▊         | 440/5150 [1:04:16<11:30:12,  8.79s/it]  9%|▊         | 441/5150 [1:04:25<11:27:51,  8.76s/it]  9%|▊         | 442/5150 [1:04:34<11:26:01,  8.74s/it]  9%|▊         | 443/5150 [1:04:42<11:24:12,  8.72s/it]  9%|▊         | 444/5150 [1:04:51<11:22:50,  8.71s/it]  9%|▊         | 445/5150 [1:05:00<11:30:20,  8.80s/it]  9%|▊         | 446/5150 [1:05:09<11:28:08,  8.78s/it]  9%|▊         | 447/5150 [1:05:17<11:25:39,  8.75s/it]  9%|▊         | 448/5150 [1:05:26<11:23:17,  8.72s/it]  9%|▊         | 449/5150 [1:05:35<11:29:44,  8.80s/it]  9%|▊         | 450/5150 [1:05:44<11:27:03,  8.77s/it]                                                       {'loss': '0.001041', 'grad_norm': '0.03119', 'learning_rate': '0.0001744', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '146.6', 'tokens/total': 7372800, 'tokens/trainable': 2334675, 'epoch': '0.4365'}
+  9%|▊         | 450/5150 [1:05:44<11:27:03,  8.77s/it]  9%|▉         | 451/5150 [1:05:52<11:25:43,  8.76s/it]  9%|▉         | 452/5150 [1:06:01<11:24:04,  8.74s/it]  9%|▉         | 453/5150 [1:06:10<11:22:35,  8.72s/it]  9%|▉         | 454/5150 [1:06:19<11:28:52,  8.80s/it]  9%|▉         | 455/5150 [1:06:27<11:26:02,  8.77s/it]  9%|▉         | 456/5150 [1:06:36<11:24:28,  8.75s/it]  9%|▉         | 457/5150 [1:06:45<11:23:11,  8.73s/it]  9%|▉         | 458/5150 [1:06:54<11:28:50,  8.81s/it]  9%|▉         | 459/5150 [1:07:02<11:25:15,  8.76s/it]  9%|▉         | 460/5150 [1:07:11<11:22:45,  8.73s/it]                                                       {'loss': '0.0005261', 'grad_norm': '0.01284', 'learning_rate': '0.0001783', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '154', 'tokens/total': 7536640, 'tokens/trainable': 2387311, 'epoch': '0.4462'}
+  9%|▉         | 460/5150 [1:07:11<11:22:45,  8.73s/it]  9%|▉         | 461/5150 [1:07:20<11:21:05,  8.72s/it]  9%|▉         | 462/5150 [1:07:28<11:20:27,  8.71s/it]  9%|▉         | 463/5150 [1:07:37<11:26:59,  8.79s/it]  9%|▉         | 464/5150 [1:07:46<11:23:50,  8.76s/it]  9%|▉         | 465/5150 [1:07:55<11:21:50,  8.73s/it]  9%|▉         | 466/5150 [1:08:03<11:20:11,  8.71s/it]  9%|▉         | 467/5150 [1:08:12<11:26:22,  8.79s/it]  9%|▉         | 468/5150 [1:08:21<11:23:45,  8.76s/it]  9%|▉         | 469/5150 [1:08:30<11:21:43,  8.74s/it]  9%|▉         | 470/5150 [1:08:38<11:19:54,  8.72s/it]                                                       {'loss': '0.000522', 'grad_norm': '0.1147', 'learning_rate': '0.0001821', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '154.8', 'tokens/total': 7700480, 'tokens/trainable': 2438732, 'epoch': '0.4559'}
+  9%|▉         | 470/5150 [1:08:39<11:19:54,  8.72s/it]  9%|▉         | 471/5150 [1:08:47<11:18:46,  8.70s/it]  9%|▉         | 472/5150 [1:08:56<11:24:59,  8.79s/it]  9%|▉         | 473/5150 [1:09:05<11:22:13,  8.75s/it]  9%|▉         | 474/5150 [1:09:13<11:19:55,  8.72s/it]  9%|▉         | 475/5150 [1:09:22<11:18:12,  8.70s/it]  9%|▉         | 476/5150 [1:09:31<11:25:04,  8.79s/it]  9%|▉         | 477/5150 [1:09:40<11:22:27,  8.76s/it]  9%|▉         | 478/5150 [1:09:49<11:20:18,  8.74s/it]  9%|▉         | 479/5150 [1:09:57<11:18:36,  8.72s/it]  9%|▉         | 480/5150 [1:10:06<11:18:06,  8.71s/it]                                                       {'loss': '0.0007234', 'grad_norm': '0.0487', 'learning_rate': '0.000186', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '144.8', 'tokens/total': 7864320, 'tokens/trainable': 2490164, 'epoch': '0.4656'}
+  9%|▉         | 480/5150 [1:10:06<11:18:06,  8.71s/it]  9%|▉         | 481/5150 [1:10:15<11:24:56,  8.80s/it]  9%|▉         | 482/5150 [1:10:24<11:21:57,  8.77s/it]  9%|▉         | 483/5150 [1:10:32<11:19:47,  8.74s/it]  9%|▉         | 484/5150 [1:10:41<11:18:07,  8.72s/it]  9%|▉         | 485/5150 [1:10:50<11:23:18,  8.79s/it]  9%|▉         | 486/5150 [1:10:59<11:19:53,  8.75s/it]  9%|▉         | 487/5150 [1:11:07<11:17:41,  8.72s/it]  9%|▉         | 488/5150 [1:11:16<11:16:10,  8.70s/it]  9%|▉         | 489/5150 [1:11:25<11:21:47,  8.78s/it] 10%|▉         | 490/5150 [1:11:33<11:18:47,  8.74s/it]                                                       {'loss': '0.0004618', 'grad_norm': '0.01335', 'learning_rate': '0.0001899', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '148.2', 'tokens/total': 8028160, 'tokens/trainable': 2541706, 'epoch': '0.4753'}
+ 10%|▉         | 490/5150 [1:11:33<11:18:47,  8.74s/it] 10%|▉         | 491/5150 [1:11:42<11:16:42,  8.71s/it] 10%|▉         | 492/5150 [1:11:51<11:15:12,  8.70s/it] 10%|▉         | 493/5150 [1:11:59<11:14:05,  8.68s/it] 10%|▉         | 494/5150 [1:12:08<11:20:39,  8.77s/it] 10%|▉         | 495/5150 [1:12:17<11:18:02,  8.74s/it] 10%|▉         | 496/5150 [1:12:26<11:15:48,  8.71s/it] 10%|▉         | 497/5150 [1:12:34<11:14:31,  8.70s/it] 10%|▉         | 498/5150 [1:12:43<11:20:38,  8.78s/it] 10%|▉         | 499/5150 [1:12:52<11:17:28,  8.74s/it] 10%|▉         | 500/5150 [1:13:01<11:15:11,  8.71s/it]                                                       {'loss': '0.001038', 'grad_norm': '0.0552', 'learning_rate': '0.0001938', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '148.1', 'tokens/total': 8192000, 'tokens/trainable': 2592926, 'epoch': '0.485'}
+ 10%|▉         | 500/5150 [1:13:01<11:15:11,  8.71s/it] 10%|▉         | 501/5150 [1:13:09<11:13:45,  8.70s/it] 10%|▉         | 502/5150 [1:13:18<11:12:48,  8.69s/it] 10%|▉         | 503/5150 [1:13:27<11:19:15,  8.77s/it] 10%|▉         | 504/5150 [1:13:36<11:17:01,  8.74s/it] 10%|▉         | 505/5150 [1:13:44<11:15:30,  8.73s/it] 10%|▉         | 506/5150 [1:13:53<11:14:12,  8.71s/it] 10%|▉         | 507/5150 [1:14:02<11:20:44,  8.80s/it] 10%|▉         | 508/5150 [1:14:11<11:17:50,  8.76s/it] 10%|▉         | 509/5150 [1:14:19<11:16:01,  8.74s/it] 10%|▉         | 510/5150 [1:14:28<11:13:54,  8.71s/it]                                                       {'loss': '0.00103', 'grad_norm': '0.0177', 'learning_rate': '0.0001977', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '143.6', 'tokens/total': 8355840, 'tokens/trainable': 2644535, 'epoch': '0.4947'}
+ 10%|▉         | 510/5150 [1:14:28<11:13:54,  8.71s/it] 10%|▉         | 511/5150 [1:14:37<11:13:12,  8.71s/it] 10%|▉         | 512/5150 [1:14:46<11:19:53,  8.80s/it] 10%|▉         | 513/5150 [1:14:54<11:17:30,  8.77s/it] 10%|▉         | 514/5150 [1:15:03<11:16:13,  8.75s/it] 10%|█         | 515/5150 [1:15:12<11:14:41,  8.73s/it][2026-03-05 04:47:52,432] [INFO] [axolotl.core.trainers.base.evaluate:400] [PID:1482537] Running evaluation step...
+[2026-03-05 04:47:53,601] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.5969011783599854
+[2026-03-05 04:47:54,189] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.5882713794708252
+[2026-03-05 04:47:54,797] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.6076462268829346
+[2026-03-05 04:47:55,387] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.5893964767456055
+[2026-03-05 04:47:55,387] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:1482537] gather_len_batches: [17]
+
+  0%|          | 0/17 [00:00<?, ?it/s][A
+ 12%|█▏        | 2/17 [00:00<00:04,  3.25it/s][A
+ 18%|█▊        | 3/17 [00:01<00:06,  2.29it/s][A
+ 24%|██▎       | 4/17 [00:01<00:06,  1.98it/s][A
+ 29%|██▉       | 5/17 [00:02<00:07,  1.68it/s][A
+ 35%|███▌      | 6/17 [00:03<00:06,  1.67it/s][A
+ 41%|████      | 7/17 [00:03<00:06,  1.65it/s][A
+ 47%|████▋     | 8/17 [00:04<00:05,  1.64it/s][A
+ 53%|█████▎    | 9/17 [00:05<00:05,  1.56it/s][A
+ 59%|█████▉    | 10/17 [00:05<00:04,  1.59it/s][A
+ 65%|██████▍   | 11/17 [00:06<00:03,  1.60it/s][A
+ 71%|███████   | 12/17 [00:07<00:03,  1.60it/s][A
+ 76%|███████▋  | 13/17 [00:08<00:03,  1.28it/s][A
+ 82%|████████▏ | 14/17 [00:08<00:02,  1.37it/s][A
+ 88%|████████▊ | 15/17 [00:09<00:01,  1.43it/s][A
+ 94%|█████████▍| 16/17 [00:10<00:00,  1.48it/s][ATraceback (most recent call last):
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 300, in _run_finalizers
+    finalizer()
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 224, in __call__
+    res = self._callback(*self._args, **self._kwargs)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 133, in _remove_temp_dir
+    rmtree(tempdir)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 725, in rmtree
+    _rmtree_safe_fd(fd, path, onerror)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 681, in _rmtree_safe_fd
+    onerror(os.unlink, fullname, sys.exc_info())
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 679, in _rmtree_safe_fd
+    os.unlink(entry.name, dir_fd=topfd)
+OSError: [Errno 16] Device or resource busy: '.nfs0000000000086288000060cb'
+
+100%|██████████| 17/17 [00:10<00:00,  1.34it/s][A                                                       
+                                               [A{'eval_loss': '0.0007037', 'eval_runtime': '12.42', 'eval_samples_per_second': '16.11', 'eval_steps_per_second': '8.055', 'eval_ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'epoch': '0.4995', 'tokens/train_per_sec_per_gpu': '142.1'}
+ 10%|█         | 515/5150 [1:15:27<11:14:41,  8.73s/it]
+100%|██████████| 17/17 [00:10<00:00,  1.34it/s][A
+                                               [A 10%|█         | 516/5150 [1:15:36<17:09:46, 13.33s/it] 10%|█         | 517/5150 [1:15:44<15:21:03, 11.93s/it] 10%|█         | 518/5150 [1:15:53<14:05:04, 10.95s/it] 10%|█         | 519/5150 [1:16:02<13:12:23, 10.27s/it] 10%|█         | 520/5150 [1:16:11<12:49:32,  9.97s/it]                                                       {'loss': '0.0006859', 'grad_norm': '0.01823', 'learning_rate': '0.0002', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '149.8', 'tokens/total': 8519680, 'tokens/trainable': 2696379, 'epoch': '0.5044'}
+ 10%|█         | 520/5150 [1:16:11<12:49:32,  9.97s/it] 10%|█         | 521/5150 [1:16:20<12:23:17,  9.63s/it] 10%|█         | 522/5150 [1:16:29<12:01:12,  9.35s/it] 10%|█         | 523/5150 [1:16:37<11:45:05,  9.14s/it] 10%|█         | 524/5150 [1:16:46<11:40:44,  9.09s/it] 10%|█         | 525/5150 [1:16:55<11:30:52,  8.96s/it] 10%|█         | 526/5150 [1:17:04<11:23:45,  8.87s/it] 10%|█         | 527/5150 [1:17:12<11:18:44,  8.81s/it] 10%|█         | 528/5150 [1:17:21<11:14:58,  8.76s/it] 10%|█         | 529/5150 [1:17:30<11:19:53,  8.83s/it] 10%|█         | 530/5150 [1:17:39<11:16:16,  8.78s/it]                                                       {'loss': '0.0007508', 'grad_norm': '0.01791', 'learning_rate': '0.0002', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '144.1', 'tokens/total': 8683520, 'tokens/trainable': 2748522, 'epoch': '0.5141'}
+ 10%|█         | 530/5150 [1:17:39<11:16:16,  8.78s/it] 10%|█         | 531/5150 [1:17:47<11:13:28,  8.75s/it] 10%|█         | 532/5150 [1:17:56<11:11:27,  8.72s/it] 10%|█         | 533/5150 [1:18:05<11:17:26,  8.80s/it] 10%|█         | 534/5150 [1:18:14<11:14:19,  8.77s/it] 10%|█         | 535/5150 [1:18:22<11:12:11,  8.74s/it] 10%|█         | 536/5150 [1:18:31<11:10:57,  8.73s/it] 10%|█         | 537/5150 [1:18:40<11:08:57,  8.70s/it] 10%|█         | 538/5150 [1:18:49<11:15:06,  8.78s/it] 10%|█         | 539/5150 [1:18:57<11:12:04,  8.75s/it] 10%|█         | 540/5150 [1:19:06<11:09:52,  8.72s/it]                                                       {'loss': '0.0006938', 'grad_norm': '0.02642', 'learning_rate': '0.0002', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '147.3', 'tokens/total': 8847360, 'tokens/trainable': 2800443, 'epoch': '0.5238'}
+ 10%|█         | 540/5150 [1:19:06<11:09:52,  8.72s/it] 11%|█         | 541/5150 [1:19:15<11:08:41,  8.71s/it] 11%|█         | 542/5150 [1:19:24<11:14:26,  8.78s/it] 11%|█         | 543/5150 [1:19:32<11:11:26,  8.74s/it] 11%|█         | 544/5150 [1:19:41<11:09:52,  8.73s/it] 11%|█         | 545/5150 [1:19:50<11:08:57,  8.72s/it] 11%|█         | 546/5150 [1:19:58<11:07:37,  8.70s/it] 11%|█         | 547/5150 [1:20:07<11:13:40,  8.78s/it] 11%|█         | 548/5150 [1:20:16<11:10:54,  8.75s/it] 11%|█         | 549/5150 [1:20:25<11:08:50,  8.72s/it] 11%|█         | 550/5150 [1:20:33<11:07:05,  8.70s/it]                                                       {'loss': '0.0006203', 'grad_norm': '0.04177', 'learning_rate': '0.0002', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '147.8', 'tokens/total': 9011200, 'tokens/trainable': 2852241, 'epoch': '0.5335'}
+ 11%|█         | 550/5150 [1:20:33<11:07:05,  8.70s/it] 11%|█         | 551/5150 [1:20:42<11:14:23,  8.80s/it] 11%|█         | 552/5150 [1:20:51<11:11:49,  8.77s/it] 11%|█         | 553/5150 [1:21:00<11:09:19,  8.74s/it] 11%|█         | 554/5150 [1:21:08<11:07:36,  8.72s/it] 11%|█         | 555/5150 [1:21:17<11:06:37,  8.70s/it] 11%|█         | 556/5150 [1:21:26<11:13:32,  8.80s/it] 11%|█         | 557/5150 [1:21:35<11:10:53,  8.76s/it] 11%|█         | 558/5150 [1:21:43<11:08:52,  8.74s/it] 11%|█         | 559/5150 [1:21:52<11:07:36,  8.72s/it] 11%|█         | 560/5150 [1:22:01<11:13:25,  8.80s/it]                                                       {'loss': '0.0008353', 'grad_norm': '0.03104', 'learning_rate': '0.0002', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '137.6', 'tokens/total': 9175040, 'tokens/trainable': 2903604, 'epoch': '0.5432'}
+ 11%|█         | 560/5150 [1:22:01<11:13:25,  8.80s/it] 11%|█         | 561/5150 [1:22:10<11:09:47,  8.76s/it] 11%|█         | 562/5150 [1:22:18<11:07:35,  8.73s/it] 11%|█         | 563/5150 [1:22:27<11:06:02,  8.71s/it] 11%|█         | 564/5150 [1:22:36<11:04:53,  8.70s/it] 11%|█         | 565/5150 [1:22:45<11:11:18,  8.78s/it] 11%|█         | 566/5150 [1:22:53<11:08:54,  8.76s/it] 11%|█         | 567/5150 [1:23:02<11:07:11,  8.73s/it] 11%|█         | 568/5150 [1:23:11<11:05:43,  8.72s/it] 11%|█         | 569/5150 [1:23:20<11:11:35,  8.80s/it] 11%|█         | 570/5150 [1:23:28<11:08:46,  8.76s/it]                                                       {'loss': '0.0004955', 'grad_norm': '0.06392', 'learning_rate': '0.0001999', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '147.3', 'tokens/total': 9338880, 'tokens/trainable': 2955007, 'epoch': '0.5529'}
+ 11%|█         | 570/5150 [1:23:28<11:08:46,  8.76s/it] 11%|█         | 571/5150 [1:23:37<11:06:21,  8.73s/it] 11%|█         | 572/5150 [1:23:46<11:05:32,  8.72s/it] 11%|█         | 573/5150 [1:23:54<11:04:30,  8.71s/it] 11%|█         | 574/5150 [1:24:03<11:11:00,  8.80s/it] 11%|█         | 575/5150 [1:24:12<11:08:13,  8.76s/it] 11%|█         | 576/5150 [1:24:21<11:06:04,  8.74s/it] 11%|█         | 577/5150 [1:24:29<11:04:08,  8.71s/it] 11%|█         | 578/5150 [1:24:38<11:10:19,  8.80s/it] 11%|█         | 579/5150 [1:24:47<11:08:09,  8.77s/it] 11%|█▏        | 580/5150 [1:24:56<11:06:03,  8.74s/it]                                                       {'loss': '0.0004196', 'grad_norm': '0.01633', 'learning_rate': '0.0001999', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '141.6', 'tokens/total': 9502720, 'tokens/trainable': 3006946, 'epoch': '0.5626'}
+ 11%|█▏        | 580/5150 [1:24:56<11:06:03,  8.74s/it] 11%|█▏        | 581/5150 [1:25:04<11:04:44,  8.73s/it] 11%|█▏        | 582/5150 [1:25:13<11:03:59,  8.72s/it] 11%|█▏        | 583/5150 [1:25:22<11:09:56,  8.80s/it] 11%|█▏        | 584/5150 [1:25:31<11:06:56,  8.76s/it] 11%|█▏        | 585/5150 [1:25:39<11:04:54,  8.74s/it] 11%|█▏        | 586/5150 [1:25:48<11:03:20,  8.72s/it] 11%|█▏        | 587/5150 [1:25:57<11:09:09,  8.80s/it] 11%|█▏        | 588/5150 [1:26:06<11:06:48,  8.77s/it] 11%|█▏        | 589/5150 [1:26:15<11:04:53,  8.75s/it] 11%|█▏        | 590/5150 [1:26:23<11:03:02,  8.72s/it]                                                       {'loss': '0.0004935', 'grad_norm': '0.02935', 'learning_rate': '0.0001999', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '139.7', 'tokens/total': 9666560, 'tokens/trainable': 3058985, 'epoch': '0.5723'}
+ 11%|█▏        | 590/5150 [1:26:23<11:03:02,  8.72s/it] 11%|█▏        | 591/5150 [1:26:32<11:02:07,  8.71s/it] 11%|█▏        | 592/5150 [1:26:41<11:08:44,  8.80s/it] 12%|█▏        | 593/5150 [1:26:50<11:05:18,  8.76s/it] 12%|█▏        | 594/5150 [1:26:58<11:03:15,  8.73s/it] 12%|█▏        | 595/5150 [1:27:07<11:01:46,  8.72s/it] 12%|█▏        | 596/5150 [1:27:16<11:07:06,  8.79s/it] 12%|█▏        | 597/5150 [1:27:25<11:04:39,  8.76s/it] 12%|█▏        | 598/5150 [1:27:33<11:05:55,  8.78s/it] 12%|█▏        | 599/5150 [1:27:42<11:03:12,  8.74s/it] 12%|█▏        | 600/5150 [1:27:51<11:00:58,  8.72s/it]                                                       {'loss': '0.000525', 'grad_norm': '0.03982', 'learning_rate': '0.0001998', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '146.6', 'tokens/total': 9830400, 'tokens/trainable': 3110984, 'epoch': '0.582'}
+ 12%|█▏        | 600/5150 [1:27:51<11:00:58,  8.72s/it] 12%|█▏        | 601/5150 [1:28:00<11:06:31,  8.79s/it] 12%|█▏        | 602/5150 [1:28:08<11:03:08,  8.75s/it] 12%|█▏        | 603/5150 [1:28:17<11:00:42,  8.72s/it] 12%|█▏        | 604/5150 [1:28:26<10:59:02,  8.70s/it] 12%|█▏        | 605/5150 [1:28:35<11:04:53,  8.78s/it] 12%|█▏        | 606/5150 [1:28:43<11:01:47,  8.74s/it] 12%|█▏        | 607/5150 [1:28:52<10:59:17,  8.71s/it] 12%|█▏        | 608/5150 [1:29:01<10:57:47,  8.69s/it] 12%|█▏        | 609/5150 [1:29:09<10:56:59,  8.68s/it] 12%|█▏        | 610/5150 [1:29:18<11:02:57,  8.76s/it]                                                       {'loss': '0.0003969', 'grad_norm': '0.02502', 'learning_rate': '0.0001998', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '138.3', 'tokens/total': 9994240, 'tokens/trainable': 3162152, 'epoch': '0.5917'}
+ 12%|█▏        | 610/5150 [1:29:18<11:02:57,  8.76s/it] 12%|█▏        | 611/5150 [1:29:27<11:00:07,  8.73s/it] 12%|█▏        | 612/5150 [1:29:35<10:58:01,  8.70s/it] 12%|█▏        | 613/5150 [1:29:44<10:56:31,  8.68s/it] 12%|█▏        | 614/5150 [1:29:53<11:02:06,  8.76s/it] 12%|█▏        | 615/5150 [1:30:02<10:59:19,  8.72s/it] 12%|█▏        | 616/5150 [1:30:10<10:57:21,  8.70s/it] 12%|█▏        | 617/5150 [1:30:19<10:55:51,  8.68s/it] 12%|█▏        | 618/5150 [1:30:28<10:54:49,  8.67s/it] 12%|█▏        | 619/5150 [1:30:37<11:01:12,  8.76s/it] 12%|█▏        | 620/5150 [1:30:45<10:58:22,  8.72s/it]                                                       {'loss': '0.0005368', 'grad_norm': '0.02724', 'learning_rate': '0.0001998', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '150.3', 'tokens/total': 10158080, 'tokens/trainable': 3213237, 'epoch': '0.6014'}
+ 12%|█▏        | 620/5150 [1:30:45<10:58:22,  8.72s/it] 12%|█▏        | 621/5150 [1:30:54<10:56:43,  8.70s/it] 12%|█▏        | 622/5150 [1:31:02<10:55:12,  8.68s/it] 12%|█▏        | 623/5150 [1:31:11<11:01:21,  8.77s/it] 12%|█▏        | 624/5150 [1:31:20<10:58:47,  8.73s/it] 12%|█▏        | 625/5150 [1:31:29<10:56:57,  8.71s/it] 12%|█▏        | 626/5150 [1:31:37<10:55:15,  8.69s/it] 12%|█▏        | 627/5150 [1:31:46<10:54:09,  8.68s/it] 12%|█▏        | 628/5150 [1:31:55<11:00:18,  8.76s/it] 12%|█▏        | 629/5150 [1:32:04<10:57:24,  8.72s/it] 12%|█▏        | 630/5150 [1:32:12<10:55:20,  8.70s/it]                                                       {'loss': '0.0003244', 'grad_norm': '0.02658', 'learning_rate': '0.0001997', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '155.3', 'tokens/total': 10321920, 'tokens/trainable': 3264855, 'epoch': '0.6111'}
+ 12%|█▏        | 630/5150 [1:32:12<10:55:20,  8.70s/it] 12%|█▏        | 631/5150 [1:32:21<10:53:53,  8.68s/it] 12%|█▏        | 632/5150 [1:32:30<10:59:36,  8.76s/it] 12%|█▏        | 633/5150 [1:32:38<10:56:59,  8.73s/it] 12%|█▏        | 634/5150 [1:32:47<10:54:50,  8.70s/it] 12%|█▏        | 635/5150 [1:32:56<10:53:30,  8.68s/it] 12%|█▏        | 636/5150 [1:33:04<10:52:23,  8.67s/it] 12%|█▏        | 637/5150 [1:33:13<10:58:53,  8.76s/it] 12%|█▏        | 638/5150 [1:33:22<10:55:55,  8.72s/it] 12%|█▏        | 639/5150 [1:33:31<10:53:54,  8.70s/it] 12%|█▏        | 640/5150 [1:33:39<10:52:33,  8.68s/it]                                                       {'loss': '0.0007563', 'grad_norm': '0.01926', 'learning_rate': '0.0001996', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '147', 'tokens/total': 10485760, 'tokens/trainable': 3316409, 'epoch': '0.6208'}
+ 12%|█▏        | 640/5150 [1:33:39<10:52:33,  8.68s/it] 12%|█▏        | 641/5150 [1:33:48<10:58:21,  8.76s/it] 12%|█▏        | 642/5150 [1:33:57<10:55:34,  8.73s/it] 12%|█▏        | 643/5150 [1:34:06<10:53:37,  8.70s/it] 13%|█▎        | 644/5150 [1:34:14<10:52:18,  8.69s/it] 13%|█▎        | 645/5150 [1:34:23<10:51:30,  8.68s/it] 13%|█▎        | 646/5150 [1:34:32<10:57:53,  8.76s/it] 13%|█▎        | 647/5150 [1:34:40<10:55:07,  8.73s/it] 13%|█▎        | 648/5150 [1:34:49<10:52:56,  8.70s/it] 13%|█▎        | 649/5150 [1:34:58<10:51:22,  8.68s/it] 13%|█▎        | 650/5150 [1:35:07<10:57:10,  8.76s/it]                                                       {'loss': '0.0005506', 'grad_norm': '0.02168', 'learning_rate': '0.0001996', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '138.9', 'tokens/total': 10649600, 'tokens/trainable': 3368347, 'epoch': '0.6305'}
+ 13%|█▎        | 650/5150 [1:35:07<10:57:10,  8.76s/it] 13%|█▎        | 651/5150 [1:35:15<10:54:31,  8.73s/it] 13%|█▎        | 652/5150 [1:35:24<10:52:23,  8.70s/it] 13%|█▎        | 653/5150 [1:35:33<10:50:45,  8.68s/it] 13%|█▎        | 654/5150 [1:35:41<10:49:54,  8.67s/it] 13%|█▎        | 655/5150 [1:35:50<10:56:07,  8.76s/it] 13%|█▎        | 656/5150 [1:35:59<10:53:37,  8.73s/it] 13%|█▎        | 657/5150 [1:36:08<10:51:37,  8.70s/it] 13%|█▎        | 658/5150 [1:36:16<10:50:03,  8.68s/it] 13%|█▎        | 659/5150 [1:36:25<10:56:34,  8.77s/it] 13%|█▎        | 660/5150 [1:36:34<10:53:54,  8.74s/it]                                                       {'loss': '0.0005658', 'grad_norm': '0.01333', 'learning_rate': '0.0001995', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '158.1', 'tokens/total': 10813440, 'tokens/trainable': 3420513, 'epoch': '0.6402'}
+ 13%|█▎        | 660/5150 [1:36:34<10:53:54,  8.74s/it] 13%|█▎        | 661/5150 [1:36:42<10:52:08,  8.72s/it] 13%|█▎        | 662/5150 [1:36:51<10:50:22,  8.69s/it] 13%|█▎        | 663/5150 [1:37:00<10:48:52,  8.68s/it] 13%|█▎        | 664/5150 [1:37:09<10:54:43,  8.76s/it] 13%|█▎        | 665/5150 [1:37:17<10:51:51,  8.72s/it] 13%|█▎        | 666/5150 [1:37:26<10:49:59,  8.70s/it] 13%|█▎        | 667/5150 [1:37:35<10:49:21,  8.69s/it] 13%|█▎        | 668/5150 [1:37:44<10:54:41,  8.76s/it] 13%|█▎        | 669/5150 [1:37:52<10:51:38,  8.73s/it] 13%|█▎        | 670/5150 [1:38:01<10:49:25,  8.70s/it]                                                       {'loss': '0.000151', 'grad_norm': '0.001155', 'learning_rate': '0.0001995', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '138.5', 'tokens/total': 10977280, 'tokens/trainable': 3472600, 'epoch': '0.6499'}
+ 13%|█▎        | 670/5150 [1:38:01<10:49:25,  8.70s/it] 13%|█▎        | 671/5150 [1:38:09<10:47:54,  8.68s/it] 13%|█▎        | 672/5150 [1:38:18<10:46:57,  8.67s/it] 13%|█▎        | 673/5150 [1:38:27<10:53:09,  8.75s/it] 13%|█▎        | 674/5150 [1:38:36<10:51:03,  8.73s/it] 13%|█▎        | 675/5150 [1:38:44<10:49:58,  8.71s/it] 13%|█▎        | 676/5150 [1:38:53<10:48:53,  8.70s/it] 13%|█▎        | 677/5150 [1:39:02<10:54:57,  8.79s/it] 13%|█▎        | 678/5150 [1:39:11<10:51:56,  8.75s/it] 13%|█▎        | 679/5150 [1:39:19<10:49:38,  8.72s/it] 13%|█▎        | 680/5150 [1:39:28<10:47:58,  8.70s/it]                                                       {'loss': '0.0002615', 'grad_norm': '0.04992', 'learning_rate': '0.0001994', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '144', 'tokens/total': 11141120, 'tokens/trainable': 3524398, 'epoch': '0.6596'}
+ 13%|█▎        | 680/5150 [1:39:28<10:47:58,  8.70s/it] 13%|█▎        | 681/5150 [1:39:37<10:48:17,  8.70s/it] 13%|█▎        | 682/5150 [1:39:46<10:55:04,  8.80s/it] 13%|█▎        | 683/5150 [1:39:54<10:52:07,  8.76s/it] 13%|█▎        | 684/5150 [1:40:03<10:50:00,  8.73s/it] 13%|█▎        | 685/5150 [1:40:12<10:49:28,  8.73s/it] 13%|█▎        | 686/5150 [1:40:21<10:55:40,  8.81s/it] 13%|█▎        | 687/5150 [1:40:30<10:52:45,  8.78s/it] 13%|█▎        | 688/5150 [1:40:38<10:50:49,  8.75s/it] 13%|█▎        | 689/5150 [1:40:47<10:48:52,  8.73s/it] 13%|█▎        | 690/5150 [1:40:56<10:48:36,  8.73s/it]                                                       {'loss': '0.0003966', 'grad_norm': '0.01032', 'learning_rate': '0.0001993', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '163.4', 'tokens/total': 11304960, 'tokens/trainable': 3576676, 'epoch': '0.6693'}
+ 13%|█▎        | 690/5150 [1:40:56<10:48:36,  8.73s/it] 13%|█▎        | 691/5150 [1:41:05<10:55:35,  8.82s/it] 13%|█▎        | 692/5150 [1:41:13<10:51:58,  8.77s/it] 13%|█▎        | 693/5150 [1:41:22<10:49:30,  8.74s/it] 13%|█▎        | 694/5150 [1:41:31<10:48:49,  8.74s/it] 13%|█▎        | 695/5150 [1:41:40<10:54:36,  8.82s/it] 14%|█▎        | 696/5150 [1:41:48<10:51:15,  8.77s/it] 14%|█▎        | 697/5150 [1:41:57<10:49:02,  8.75s/it] 14%|█▎        | 698/5150 [1:42:06<10:47:16,  8.72s/it] 14%|█▎        | 699/5150 [1:42:15<10:52:58,  8.80s/it] 14%|█▎        | 700/5150 [1:42:23<10:49:44,  8.76s/it]                                                       {'loss': '0.0005366', 'grad_norm': '0.007121', 'learning_rate': '0.0001992', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '162.2', 'tokens/total': 11468800, 'tokens/trainable': 3628974, 'epoch': '0.679'}
+ 14%|█▎        | 700/5150 [1:42:23<10:49:44,  8.76s/it] 14%|█▎        | 701/5150 [1:42:32<10:47:32,  8.73s/it] 14%|█▎        | 702/5150 [1:42:41<10:46:10,  8.72s/it] 14%|█▎        | 703/5150 [1:42:49<10:44:23,  8.69s/it] 14%|█▎        | 704/5150 [1:42:58<10:49:32,  8.77s/it] 14%|█▎        | 705/5150 [1:43:07<10:46:33,  8.73s/it] 14%|█▎        | 706/5150 [1:43:16<10:44:34,  8.70s/it] 14%|█▎        | 707/5150 [1:43:24<10:43:14,  8.69s/it] 14%|█▎        | 708/5150 [1:43:33<10:49:08,  8.77s/it] 14%|█▍        | 709/5150 [1:43:42<10:46:06,  8.73s/it] 14%|█▍        | 710/5150 [1:43:50<10:44:15,  8.71s/it]                                                       {'loss': '0.00079', 'grad_norm': '0.01291', 'learning_rate': '0.0001991', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '152.2', 'tokens/total': 11632640, 'tokens/trainable': 3680214, 'epoch': '0.6887'}
+ 14%|█▍        | 710/5150 [1:43:50<10:44:15,  8.71s/it] 14%|█▍        | 711/5150 [1:43:59<10:43:27,  8.70s/it] 14%|█▍        | 712/5150 [1:44:08<10:41:50,  8.68s/it] 14%|█▍        | 713/5150 [1:44:17<10:47:35,  8.76s/it] 14%|█▍        | 714/5150 [1:44:25<10:44:40,  8.72s/it] 14%|█▍        | 715/5150 [1:44:34<10:42:38,  8.69s/it] 14%|█▍        | 716/5150 [1:44:43<10:41:11,  8.68s/it] 14%|█▍        | 717/5150 [1:44:52<10:46:55,  8.76s/it] 14%|█▍        | 718/5150 [1:45:00<10:44:06,  8.72s/it] 14%|█▍        | 719/5150 [1:45:09<10:42:05,  8.69s/it] 14%|█▍        | 720/5150 [1:45:17<10:40:42,  8.68s/it]                                                       {'loss': '0.0008036', 'grad_norm': '0.04051', 'learning_rate': '0.000199', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '152.3', 'tokens/total': 11796480, 'tokens/trainable': 3732536, 'epoch': '0.6984'}
+ 14%|█▍        | 720/5150 [1:45:17<10:40:42,  8.68s/it] 14%|█▍        | 721/5150 [1:45:26<10:39:36,  8.66s/it] 14%|█▍        | 722/5150 [1:45:35<10:45:02,  8.74s/it] 14%|█▍        | 723/5150 [1:45:44<10:42:39,  8.71s/it] 14%|█▍        | 724/5150 [1:45:52<10:40:54,  8.69s/it] 14%|█▍        | 725/5150 [1:46:01<10:39:35,  8.67s/it] 14%|█▍        | 726/5150 [1:46:10<10:45:27,  8.75s/it] 14%|█▍        | 727/5150 [1:46:19<10:42:43,  8.72s/it] 14%|█▍        | 728/5150 [1:46:27<10:40:43,  8.69s/it] 14%|█▍        | 729/5150 [1:46:36<10:39:16,  8.68s/it] 14%|█▍        | 730/5150 [1:46:44<10:38:13,  8.66s/it]                                                       {'loss': '0.0004364', 'grad_norm': '0.009001', 'learning_rate': '0.0001989', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '144.3', 'tokens/total': 11960320, 'tokens/trainable': 3784386, 'epoch': '0.7081'}
+ 14%|█▍        | 730/5150 [1:46:44<10:38:13,  8.66s/it] 14%|█▍        | 731/5150 [1:46:53<10:44:10,  8.75s/it] 14%|█▍        | 732/5150 [1:47:02<10:41:29,  8.71s/it] 14%|█▍        | 733/5150 [1:47:11<10:39:39,  8.69s/it] 14%|█▍        | 734/5150 [1:47:19<10:38:28,  8.67s/it] 14%|█▍        | 735/5150 [1:47:28<10:44:04,  8.75s/it] 14%|█▍        | 736/5150 [1:47:37<10:41:12,  8.72s/it] 14%|█▍        | 737/5150 [1:47:45<10:39:10,  8.69s/it] 14%|█▍        | 738/5150 [1:47:54<10:37:43,  8.67s/it] 14%|█▍        | 739/5150 [1:48:03<10:36:38,  8.66s/it] 14%|█▍        | 740/5150 [1:48:12<10:43:01,  8.75s/it]                                                       {'loss': '0.0003383', 'grad_norm': '0.01391', 'learning_rate': '0.0001988', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '140', 'tokens/total': 12124160, 'tokens/trainable': 3836216, 'epoch': '0.7177'}
+ 14%|█▍        | 740/5150 [1:48:12<10:43:01,  8.75s/it] 14%|█▍        | 741/5150 [1:48:20<10:40:55,  8.72s/it] 14%|█▍        | 742/5150 [1:48:29<10:39:14,  8.70s/it] 14%|█▍        | 743/5150 [1:48:38<10:37:59,  8.69s/it] 14%|█▍        | 744/5150 [1:48:47<10:43:35,  8.76s/it] 14%|█▍        | 745/5150 [1:48:55<10:40:48,  8.73s/it] 14%|█▍        | 746/5150 [1:49:04<10:38:51,  8.70s/it] 15%|█▍        | 747/5150 [1:49:13<10:37:27,  8.69s/it] 15%|█▍        | 748/5150 [1:49:21<10:36:26,  8.67s/it] 15%|█▍        | 749/5150 [1:49:30<10:42:11,  8.76s/it] 15%|█▍        | 750/5150 [1:49:39<10:39:38,  8.72s/it]                                                       {'loss': '0.0001686', 'grad_norm': '0.003735', 'learning_rate': '0.0001987', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '158.3', 'tokens/total': 12288000, 'tokens/trainable': 3887964, 'epoch': '0.7274'}
+ 15%|█▍        | 750/5150 [1:49:39<10:39:38,  8.72s/it] 15%|█▍        | 751/5150 [1:49:47<10:37:45,  8.70s/it] 15%|█▍        | 752/5150 [1:49:56<10:36:21,  8.68s/it] 15%|█▍        | 753/5150 [1:50:05<10:42:08,  8.76s/it] 15%|█▍        | 754/5150 [1:50:14<10:39:14,  8.72s/it] 15%|█▍        | 755/5150 [1:50:22<10:37:18,  8.70s/it] 15%|█▍        | 756/5150 [1:50:31<10:35:53,  8.68s/it] 15%|█▍        | 757/5150 [1:50:40<10:34:48,  8.67s/it] 15%|█▍        | 758/5150 [1:50:49<10:40:34,  8.75s/it] 15%|█▍        | 759/5150 [1:50:57<10:37:59,  8.72s/it] 15%|█▍        | 760/5150 [1:51:06<10:36:06,  8.69s/it]                                                       {'loss': '0.0003373', 'grad_norm': '0.02906', 'learning_rate': '0.0001986', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '146.3', 'tokens/total': 12451840, 'tokens/trainable': 3939404, 'epoch': '0.7371'}
+ 15%|█▍        | 760/5150 [1:51:06<10:36:06,  8.69s/it] 15%|█▍        | 761/5150 [1:51:14<10:34:50,  8.68s/it] 15%|█▍        | 762/5150 [1:51:23<10:40:35,  8.76s/it] 15%|█▍        | 763/5150 [1:51:32<10:38:03,  8.73s/it] 15%|█▍        | 764/5150 [1:51:41<10:36:14,  8.70s/it] 15%|█▍        | 765/5150 [1:51:49<10:34:45,  8.69s/it] 15%|█▍        | 766/5150 [1:51:58<10:33:44,  8.67s/it] 15%|█▍        | 767/5150 [1:52:07<10:39:53,  8.76s/it] 15%|█▍        | 768/5150 [1:52:16<10:37:19,  8.73s/it] 15%|█▍        | 769/5150 [1:52:24<10:35:44,  8.71s/it] 15%|█▍        | 770/5150 [1:52:33<10:34:21,  8.69s/it]                                                       {'loss': '0.0005721', 'grad_norm': '0.03625', 'learning_rate': '0.0001985', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '144.2', 'tokens/total': 12615680, 'tokens/trainable': 3990589, 'epoch': '0.7468'}
+ 15%|█▍        | 770/5150 [1:52:33<10:34:21,  8.69s/it] 15%|█▍        | 771/5150 [1:52:42<10:40:04,  8.77s/it] 15%|█▍        | 772/5150 [1:52:51<10:37:20,  8.73s/it] 15%|█▌        | 773/5150 [1:52:59<10:35:15,  8.71s/it] 15%|█▌        | 774/5150 [1:53:08<10:33:42,  8.69s/it] 15%|█▌        | 775/5150 [1:53:16<10:32:41,  8.68s/it] 15%|█▌        | 776/5150 [1:53:25<10:39:35,  8.77s/it] 15%|█▌        | 777/5150 [1:53:34<10:37:29,  8.75s/it] 15%|█▌        | 778/5150 [1:53:43<10:34:52,  8.71s/it] 15%|█▌        | 779/5150 [1:53:51<10:32:55,  8.69s/it] 15%|█▌        | 780/5150 [1:54:00<10:37:57,  8.76s/it]                                                       {'loss': '0.0004662', 'grad_norm': '0.02401', 'learning_rate': '0.0001984', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '150', 'tokens/total': 12779520, 'tokens/trainable': 4042202, 'epoch': '0.7565'}
+ 15%|█▌        | 780/5150 [1:54:00<10:37:57,  8.76s/it] 15%|█▌        | 781/5150 [1:54:09<10:35:04,  8.72s/it] 15%|█▌        | 782/5150 [1:54:18<10:32:59,  8.69s/it] 15%|█▌        | 783/5150 [1:54:26<10:31:31,  8.68s/it] 15%|█▌        | 784/5150 [1:54:35<10:30:31,  8.67s/it] 15%|█▌        | 785/5150 [1:54:44<10:36:08,  8.74s/it] 15%|█▌        | 786/5150 [1:54:52<10:33:26,  8.71s/it] 15%|█▌        | 787/5150 [1:55:01<10:31:50,  8.69s/it] 15%|█▌        | 788/5150 [1:55:10<10:30:26,  8.67s/it] 15%|█▌        | 789/5150 [1:55:19<10:35:38,  8.75s/it] 15%|█▌        | 790/5150 [1:55:27<10:32:54,  8.71s/it]                                                       {'loss': '0.0004205', 'grad_norm': '0.04608', 'learning_rate': '0.0001983', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '156.9', 'tokens/total': 12943360, 'tokens/trainable': 4093997, 'epoch': '0.7662'}
+ 15%|█▌        | 790/5150 [1:55:27<10:32:54,  8.71s/it] 15%|█▌        | 791/5150 [1:55:36<10:30:57,  8.68s/it] 15%|█▌        | 792/5150 [1:55:44<10:29:35,  8.67s/it] 15%|█▌        | 793/5150 [1:55:53<10:28:34,  8.66s/it] 15%|█▌        | 794/5150 [1:56:02<10:34:08,  8.73s/it] 15%|█▌        | 795/5150 [1:56:11<10:31:36,  8.70s/it] 15%|█▌        | 796/5150 [1:56:19<10:29:54,  8.68s/it] 15%|█▌        | 797/5150 [1:56:28<10:28:42,  8.67s/it] 15%|█▌        | 798/5150 [1:56:37<10:34:14,  8.74s/it] 16%|█▌        | 799/5150 [1:56:45<10:31:36,  8.71s/it] 16%|█▌        | 800/5150 [1:56:54<10:29:51,  8.69s/it]                                                       {'loss': '0.0002428', 'grad_norm': '0.004449', 'learning_rate': '0.0001982', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '150.5', 'tokens/total': 13107200, 'tokens/trainable': 4145699, 'epoch': '0.7759'}
+ 16%|█▌        | 800/5150 [1:56:54<10:29:51,  8.69s/it] 16%|█▌        | 801/5150 [1:57:03<10:28:38,  8.67s/it] 16%|█▌        | 802/5150 [1:57:11<10:27:44,  8.66s/it] 16%|█▌        | 803/5150 [1:57:20<10:33:28,  8.74s/it] 16%|█▌        | 804/5150 [1:57:29<10:30:57,  8.71s/it] 16%|█▌        | 805/5150 [1:57:38<10:29:01,  8.69s/it] 16%|█▌        | 806/5150 [1:57:46<10:27:58,  8.67s/it] 16%|█▌        | 807/5150 [1:57:55<10:33:31,  8.75s/it] 16%|█▌        | 808/5150 [1:58:04<10:30:57,  8.72s/it] 16%|█▌        | 809/5150 [1:58:12<10:29:26,  8.70s/it] 16%|█▌        | 810/5150 [1:58:21<10:28:06,  8.68s/it]                                                       {'loss': '0.0003466', 'grad_norm': '0.0003375', 'learning_rate': '0.000198', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '139.6', 'tokens/total': 13271040, 'tokens/trainable': 4197793, 'epoch': '0.7856'}
+ 16%|█▌        | 810/5150 [1:58:21<10:28:06,  8.68s/it] 16%|█▌        | 811/5150 [1:58:30<10:27:02,  8.67s/it] 16%|█▌        | 812/5150 [1:58:39<10:32:41,  8.75s/it] 16%|█▌        | 813/5150 [1:58:47<10:30:02,  8.72s/it] 16%|█▌        | 814/5150 [1:58:56<10:28:03,  8.69s/it] 16%|█▌        | 815/5150 [1:59:05<10:26:37,  8.67s/it] 16%|█▌        | 816/5150 [1:59:14<10:32:21,  8.75s/it] 16%|█▌        | 817/5150 [1:59:22<10:29:55,  8.72s/it] 16%|█▌        | 818/5150 [1:59:31<10:28:13,  8.70s/it] 16%|█▌        | 819/5150 [1:59:39<10:26:41,  8.68s/it] 16%|█▌        | 820/5150 [1:59:48<10:25:26,  8.67s/it]                                                       {'loss': '0.0005567', 'grad_norm': '0.01682', 'learning_rate': '0.0001979', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '151.2', 'tokens/total': 13434880, 'tokens/trainable': 4249543, 'epoch': '0.7953'}
+ 16%|█▌        | 820/5150 [1:59:48<10:25:26,  8.67s/it] 16%|█▌        | 821/5150 [1:59:57<10:30:59,  8.75s/it] 16%|█▌        | 822/5150 [2:00:06<10:28:24,  8.71s/it] 16%|█▌        | 823/5150 [2:00:14<10:26:32,  8.69s/it] 16%|█▌        | 824/5150 [2:00:23<10:25:12,  8.67s/it] 16%|█▌        | 825/5150 [2:00:32<10:30:28,  8.75s/it] 16%|█▌        | 826/5150 [2:00:40<10:28:00,  8.71s/it] 16%|█▌        | 827/5150 [2:00:49<10:26:23,  8.69s/it] 16%|█▌        | 828/5150 [2:00:58<10:24:57,  8.68s/it] 16%|█▌        | 829/5150 [2:01:06<10:24:17,  8.67s/it] 16%|█▌        | 830/5150 [2:01:15<10:30:42,  8.76s/it]                                                       {'loss': '0.001128', 'grad_norm': '0.03403', 'learning_rate': '0.0001977', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '132.1', 'tokens/total': 13598720, 'tokens/trainable': 4301090, 'epoch': '0.805'}
+ 16%|█▌        | 830/5150 [2:01:15<10:30:42,  8.76s/it] 16%|█▌        | 831/5150 [2:01:24<10:28:45,  8.73s/it] 16%|█▌        | 832/5150 [2:01:33<10:26:41,  8.71s/it] 16%|█▌        | 833/5150 [2:01:41<10:25:20,  8.69s/it] 16%|█▌        | 834/5150 [2:01:50<10:30:46,  8.77s/it] 16%|█▌        | 835/5150 [2:01:59<10:28:05,  8.73s/it] 16%|█▌        | 836/5150 [2:02:08<10:26:01,  8.71s/it] 16%|█▋        | 837/5150 [2:02:16<10:24:46,  8.69s/it] 16%|█▋        | 838/5150 [2:02:25<10:24:20,  8.69s/it] 16%|█▋        | 839/5150 [2:02:34<10:30:57,  8.78s/it] 16%|█▋        | 840/5150 [2:02:43<10:28:32,  8.75s/it]                                                       {'loss': '0.0006794', 'grad_norm': '0.01561', 'learning_rate': '0.0001976', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '157.5', 'tokens/total': 13762560, 'tokens/trainable': 4353247, 'epoch': '0.8147'}
+ 16%|█▋        | 840/5150 [2:02:43<10:28:32,  8.75s/it] 16%|█▋        | 841/5150 [2:02:51<10:26:50,  8.73s/it] 16%|█▋        | 842/5150 [2:03:00<10:25:49,  8.72s/it] 16%|█▋        | 843/5150 [2:03:09<10:31:41,  8.80s/it] 16%|█▋        | 844/5150 [2:03:18<10:29:01,  8.76s/it] 16%|█▋        | 845/5150 [2:03:26<10:26:26,  8.73s/it] 16%|█▋        | 846/5150 [2:03:35<10:24:42,  8.71s/it] 16%|█▋        | 847/5150 [2:03:44<10:23:02,  8.69s/it] 16%|█▋        | 848/5150 [2:03:53<10:27:40,  8.75s/it] 16%|█▋        | 849/5150 [2:04:01<10:24:47,  8.72s/it] 17%|█▋        | 850/5150 [2:04:10<10:22:50,  8.69s/it]                                                       {'loss': '0.0004779', 'grad_norm': '0.04145', 'learning_rate': '0.0001974', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '159', 'tokens/total': 13926400, 'tokens/trainable': 4404956, 'epoch': '0.8244'}
+ 17%|█▋        | 850/5150 [2:04:10<10:22:50,  8.69s/it] 17%|█▋        | 851/5150 [2:04:18<10:21:24,  8.67s/it] 17%|█▋        | 852/5150 [2:04:27<10:26:39,  8.75s/it] 17%|█▋        | 853/5150 [2:04:36<10:23:57,  8.71s/it] 17%|█▋        | 854/5150 [2:04:45<10:22:05,  8.69s/it] 17%|█▋        | 855/5150 [2:04:53<10:20:43,  8.67s/it] 17%|█▋        | 856/5150 [2:05:02<10:19:44,  8.66s/it] 17%|█▋        | 857/5150 [2:05:11<10:25:22,  8.74s/it] 17%|█▋        | 858/5150 [2:05:19<10:22:53,  8.71s/it] 17%|█▋        | 859/5150 [2:05:28<10:21:03,  8.68s/it] 17%|█▋        | 860/5150 [2:05:37<10:19:50,  8.67s/it]                                                       {'loss': '0.0003544', 'grad_norm': '0.01542', 'learning_rate': '0.0001973', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '142.4', 'tokens/total': 14090240, 'tokens/trainable': 4456799, 'epoch': '0.8341'}
+ 17%|█▋        | 860/5150 [2:05:37<10:19:50,  8.67s/it] 17%|█▋        | 861/5150 [2:05:46<10:25:05,  8.74s/it] 17%|█▋        | 862/5150 [2:05:54<10:22:26,  8.71s/it] 17%|█▋        | 863/5150 [2:06:03<10:20:32,  8.69s/it] 17%|█▋        | 864/5150 [2:06:11<10:19:15,  8.67s/it] 17%|█▋        | 865/5150 [2:06:20<10:18:21,  8.66s/it] 17%|█▋        | 866/5150 [2:06:29<10:24:00,  8.74s/it] 17%|█▋        | 867/5150 [2:06:38<10:21:34,  8.71s/it] 17%|█▋        | 868/5150 [2:06:46<10:19:45,  8.68s/it] 17%|█▋        | 869/5150 [2:06:55<10:18:26,  8.67s/it] 17%|█▋        | 870/5150 [2:07:04<10:23:47,  8.74s/it]                                                       {'loss': '0.001265', 'grad_norm': '0.112', 'learning_rate': '0.0001971', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '162.7', 'tokens/total': 14254080, 'tokens/trainable': 4508239, 'epoch': '0.8438'}
+ 17%|█▋        | 870/5150 [2:07:04<10:23:47,  8.74s/it] 17%|█▋        | 871/5150 [2:07:13<10:21:48,  8.72s/it] 17%|█▋        | 872/5150 [2:07:21<10:20:11,  8.70s/it] 17%|█▋        | 873/5150 [2:07:30<10:18:51,  8.68s/it] 17%|█▋        | 874/5150 [2:07:38<10:18:03,  8.67s/it] 17%|█▋        | 875/5150 [2:07:47<10:23:46,  8.75s/it] 17%|█▋        | 876/5150 [2:07:56<10:21:18,  8.72s/it] 17%|█▋        | 877/5150 [2:08:05<10:20:14,  8.71s/it] 17%|█▋        | 878/5150 [2:08:13<10:19:52,  8.71s/it] 17%|█▋        | 879/5150 [2:08:22<10:25:24,  8.79s/it] 17%|█▋        | 880/5150 [2:08:31<10:22:20,  8.74s/it]                                                       {'loss': '0.0009731', 'grad_norm': '0.06214', 'learning_rate': '0.000197', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '150.2', 'tokens/total': 14417920, 'tokens/trainable': 4560398, 'epoch': '0.8535'}
+ 17%|█▋        | 880/5150 [2:08:31<10:22:20,  8.74s/it] 17%|█▋        | 881/5150 [2:08:40<10:20:21,  8.72s/it] 17%|█▋        | 882/5150 [2:08:48<10:18:31,  8.70s/it] 17%|█▋        | 883/5150 [2:08:57<10:17:41,  8.69s/it] 17%|█▋        | 884/5150 [2:09:06<10:23:11,  8.76s/it] 17%|█▋        | 885/5150 [2:09:15<10:20:42,  8.73s/it] 17%|█▋        | 886/5150 [2:09:23<10:19:31,  8.72s/it] 17%|█▋        | 887/5150 [2:09:32<10:18:30,  8.71s/it] 17%|█▋        | 888/5150 [2:09:41<10:24:29,  8.79s/it] 17%|█▋        | 889/5150 [2:09:50<10:22:13,  8.76s/it] 17%|█▋        | 890/5150 [2:09:58<10:19:36,  8.73s/it]                                                       {'loss': '0.0007495', 'grad_norm': '0.02291', 'learning_rate': '0.0001968', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '153.2', 'tokens/total': 14581760, 'tokens/trainable': 4612375, 'epoch': '0.8632'}
+ 17%|█▋        | 890/5150 [2:09:58<10:19:36,  8.73s/it] 17%|█▋        | 891/5150 [2:10:07<10:18:11,  8.71s/it] 17%|█▋        | 892/5150 [2:10:16<10:16:45,  8.69s/it] 17%|█▋        | 893/5150 [2:10:25<10:23:02,  8.78s/it] 17%|█▋        | 894/5150 [2:10:33<10:20:50,  8.75s/it] 17%|█▋        | 895/5150 [2:10:42<10:18:47,  8.73s/it] 17%|█▋        | 896/5150 [2:10:51<10:17:46,  8.71s/it] 17%|█▋        | 897/5150 [2:11:00<10:22:51,  8.79s/it] 17%|█▋        | 898/5150 [2:11:08<10:20:01,  8.75s/it] 17%|█▋        | 899/5150 [2:11:17<10:17:39,  8.72s/it] 17%|█▋        | 900/5150 [2:11:26<10:16:03,  8.70s/it]                                                       {'loss': '0.0005282', 'grad_norm': '0.008991', 'learning_rate': '0.0001966', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '138.5', 'tokens/total': 14745600, 'tokens/trainable': 4664911, 'epoch': '0.8729'}
+ 17%|█▋        | 900/5150 [2:11:26<10:16:03,  8.70s/it] 17%|█▋        | 901/5150 [2:11:34<10:15:09,  8.69s/it] 18%|█▊        | 902/5150 [2:11:43<10:21:32,  8.78s/it] 18%|█▊        | 903/5150 [2:11:52<10:19:35,  8.75s/it] 18%|█▊        | 904/5150 [2:12:01<10:17:20,  8.72s/it] 18%|█▊        | 905/5150 [2:12:09<10:16:10,  8.71s/it] 18%|█▊        | 906/5150 [2:12:18<10:21:16,  8.78s/it] 18%|█▊        | 907/5150 [2:12:27<10:18:24,  8.74s/it] 18%|█▊        | 908/5150 [2:12:36<10:16:13,  8.72s/it] 18%|█▊        | 909/5150 [2:12:44<10:15:45,  8.71s/it] 18%|█▊        | 910/5150 [2:12:53<10:14:23,  8.69s/it]                                                       {'loss': '0.0006463', 'grad_norm': '0.01516', 'learning_rate': '0.0001965', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '152.5', 'tokens/total': 14909440, 'tokens/trainable': 4717342, 'epoch': '0.8826'}
+ 18%|█▊        | 910/5150 [2:12:53<10:14:23,  8.69s/it] 18%|█▊        | 911/5150 [2:13:02<10:19:25,  8.77s/it] 18%|█▊        | 912/5150 [2:13:10<10:16:28,  8.73s/it] 18%|█▊        | 913/5150 [2:13:19<10:14:17,  8.70s/it] 18%|█▊        | 914/5150 [2:13:28<10:12:41,  8.68s/it] 18%|█▊        | 915/5150 [2:13:37<10:17:58,  8.76s/it] 18%|█▊        | 916/5150 [2:13:45<10:15:15,  8.72s/it] 18%|█▊        | 917/5150 [2:13:54<10:13:19,  8.69s/it] 18%|█▊        | 918/5150 [2:14:03<10:12:01,  8.68s/it] 18%|█▊        | 919/5150 [2:14:11<10:11:03,  8.67s/it] 18%|█▊        | 920/5150 [2:14:20<10:16:45,  8.75s/it]                                                       {'loss': '0.0005318', 'grad_norm': '0.006051', 'learning_rate': '0.0001963', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '150', 'tokens/total': 15073280, 'tokens/trainable': 4769504, 'epoch': '0.8923'}
+ 18%|█▊        | 920/5150 [2:14:20<10:16:45,  8.75s/it] 18%|█▊        | 921/5150 [2:14:29<10:14:12,  8.71s/it] 18%|█▊        | 922/5150 [2:14:37<10:12:22,  8.69s/it] 18%|█▊        | 923/5150 [2:14:46<10:11:05,  8.67s/it] 18%|█▊        | 924/5150 [2:14:55<10:16:37,  8.75s/it] 18%|█▊        | 925/5150 [2:15:04<10:14:01,  8.72s/it] 18%|█▊        | 926/5150 [2:15:12<10:12:07,  8.69s/it] 18%|█▊        | 927/5150 [2:15:21<10:10:46,  8.68s/it] 18%|█▊        | 928/5150 [2:15:30<10:09:54,  8.67s/it] 18%|█▊        | 929/5150 [2:15:38<10:15:09,  8.74s/it] 18%|█▊        | 930/5150 [2:15:47<10:12:42,  8.71s/it]                                                       {'loss': '0.000361', 'grad_norm': '0.01239', 'learning_rate': '0.0001961', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '139.6', 'tokens/total': 15237120, 'tokens/trainable': 4821538, 'epoch': '0.902'}
+ 18%|█▊        | 930/5150 [2:15:47<10:12:42,  8.71s/it] 18%|█▊        | 931/5150 [2:15:56<10:11:19,  8.69s/it] 18%|█▊        | 932/5150 [2:16:04<10:10:00,  8.68s/it] 18%|█▊        | 933/5150 [2:16:13<10:15:08,  8.75s/it] 18%|█▊        | 934/5150 [2:16:22<10:12:42,  8.72s/it] 18%|█▊        | 935/5150 [2:16:31<10:10:47,  8.69s/it] 18%|█▊        | 936/5150 [2:16:39<10:09:23,  8.68s/it] 18%|█▊        | 937/5150 [2:16:48<10:08:33,  8.67s/it] 18%|█▊        | 938/5150 [2:16:57<10:14:13,  8.75s/it] 18%|█▊        | 939/5150 [2:17:05<10:12:09,  8.72s/it] 18%|█▊        | 940/5150 [2:17:14<10:10:37,  8.70s/it]                                                       {'loss': '0.0008404', 'grad_norm': '0.1015', 'learning_rate': '0.0001959', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '153.4', 'tokens/total': 15400960, 'tokens/trainable': 4873653, 'epoch': '0.9117'}
+ 18%|█▊        | 940/5150 [2:17:14<10:10:37,  8.70s/it] 18%|█▊        | 941/5150 [2:17:23<10:09:30,  8.69s/it] 18%|█▊        | 942/5150 [2:17:32<10:14:56,  8.77s/it] 18%|█▊        | 943/5150 [2:17:40<10:12:40,  8.74s/it] 18%|█▊        | 944/5150 [2:17:49<10:10:48,  8.71s/it] 18%|█▊        | 945/5150 [2:17:58<10:10:36,  8.71s/it] 18%|█▊        | 946/5150 [2:18:06<10:09:56,  8.71s/it] 18%|█▊        | 947/5150 [2:18:15<10:14:29,  8.77s/it] 18%|█▊        | 948/5150 [2:18:24<10:12:13,  8.74s/it] 18%|█▊        | 949/5150 [2:18:33<10:10:26,  8.72s/it] 18%|█▊        | 950/5150 [2:18:41<10:08:50,  8.70s/it]                                                       {'loss': '0.0008249', 'grad_norm': '0.002729', 'learning_rate': '0.0001957', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '149.1', 'tokens/total': 15564800, 'tokens/trainable': 4925244, 'epoch': '0.9214'}
+ 18%|█▊        | 950/5150 [2:18:41<10:08:50,  8.70s/it] 18%|█▊        | 951/5150 [2:18:50<10:07:37,  8.68s/it] 18%|█▊        | 952/5150 [2:18:59<10:12:23,  8.75s/it] 19%|█▊        | 953/5150 [2:19:08<10:09:53,  8.72s/it] 19%|█▊        | 954/5150 [2:19:16<10:08:10,  8.70s/it] 19%|█▊        | 955/5150 [2:19:25<10:08:43,  8.71s/it] 19%|█▊        | 956/5150 [2:19:34<10:14:38,  8.79s/it] 19%|█▊        | 957/5150 [2:19:43<10:11:58,  8.76s/it] 19%|█▊        | 958/5150 [2:19:51<10:10:28,  8.74s/it] 19%|█▊        | 959/5150 [2:20:00<10:09:48,  8.73s/it] 19%|█▊        | 960/5150 [2:20:09<10:15:34,  8.81s/it]                                                       {'loss': '0.0003294', 'grad_norm': '0.08912', 'learning_rate': '0.0001955', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '141', 'tokens/total': 15728640, 'tokens/trainable': 4977226, 'epoch': '0.9311'}
+ 19%|█▊        | 960/5150 [2:20:09<10:15:34,  8.81s/it] 19%|█▊        | 961/5150 [2:20:18<10:13:02,  8.78s/it] 19%|█▊        | 962/5150 [2:20:26<10:09:55,  8.74s/it] 19%|█▊        | 963/5150 [2:20:35<10:07:49,  8.71s/it] 19%|█▊        | 964/5150 [2:20:44<10:06:53,  8.70s/it] 19%|█▊        | 965/5150 [2:20:53<10:12:09,  8.78s/it] 19%|█▉        | 966/5150 [2:21:01<10:09:34,  8.74s/it] 19%|█▉        | 967/5150 [2:21:10<10:07:25,  8.71s/it] 19%|█▉        | 968/5150 [2:21:19<10:05:59,  8.69s/it] 19%|█▉        | 969/5150 [2:21:28<10:10:39,  8.76s/it] 19%|█▉        | 970/5150 [2:21:36<10:07:47,  8.72s/it]                                                       {'loss': '0.0008848', 'grad_norm': '0.08106', 'learning_rate': '0.0001953', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '163.1', 'tokens/total': 15892480, 'tokens/trainable': 5029533, 'epoch': '0.9408'}
+ 19%|█▉        | 970/5150 [2:21:36<10:07:47,  8.72s/it] 19%|█▉        | 971/5150 [2:21:45<10:06:04,  8.70s/it] 19%|█▉        | 972/5150 [2:21:53<10:04:35,  8.68s/it] 19%|█▉        | 973/5150 [2:22:02<10:03:35,  8.67s/it] 19%|█▉        | 974/5150 [2:22:11<10:09:55,  8.76s/it] 19%|█▉        | 975/5150 [2:22:20<10:07:36,  8.73s/it] 19%|█▉        | 976/5150 [2:22:28<10:05:22,  8.70s/it] 19%|█▉        | 977/5150 [2:22:37<10:03:42,  8.68s/it] 19%|█▉        | 978/5150 [2:22:46<10:08:36,  8.75s/it] 19%|█▉        | 979/5150 [2:22:55<10:05:50,  8.71s/it] 19%|█▉        | 980/5150 [2:23:03<10:03:51,  8.69s/it]                                                       {'loss': '0.04443', 'grad_norm': '0.7822', 'learning_rate': '0.0001951', 'ppl': '1.045', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '146.5', 'tokens/total': 16056320, 'tokens/trainable': 5082001, 'epoch': '0.9505'}
+ 19%|█▉        | 980/5150 [2:23:03<10:03:51,  8.69s/it] 19%|█▉        | 981/5150 [2:23:12<10:02:38,  8.67s/it] 19%|█▉        | 982/5150 [2:23:20<10:01:40,  8.66s/it] 19%|█▉        | 983/5150 [2:23:29<10:07:05,  8.74s/it] 19%|█▉        | 984/5150 [2:23:38<10:04:33,  8.71s/it] 19%|█▉        | 985/5150 [2:23:47<10:02:45,  8.68s/it] 19%|█▉        | 986/5150 [2:23:55<10:01:31,  8.67s/it] 19%|█▉        | 987/5150 [2:24:04<10:06:36,  8.74s/it] 19%|█▉        | 988/5150 [2:24:13<10:04:10,  8.71s/it] 19%|█▉        | 989/5150 [2:24:21<10:02:17,  8.68s/it] 19%|█▉        | 990/5150 [2:24:30<10:01:02,  8.67s/it]                                                       {'loss': '0.0251', 'grad_norm': '0.3627', 'learning_rate': '0.0001949', 'ppl': '1.025', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '155.7', 'tokens/total': 16220160, 'tokens/trainable': 5134005, 'epoch': '0.9602'}
+ 19%|█▉        | 990/5150 [2:24:30<10:01:02,  8.67s/it] 19%|█▉        | 991/5150 [2:24:39<10:00:06,  8.66s/it] 19%|█▉        | 992/5150 [2:24:48<10:05:19,  8.73s/it] 19%|█▉        | 993/5150 [2:24:56<10:02:56,  8.70s/it] 19%|█▉        | 994/5150 [2:25:05<10:01:16,  8.68s/it] 19%|█▉        | 995/5150 [2:25:13<10:00:04,  8.67s/it] 19%|█▉        | 996/5150 [2:25:22<10:05:12,  8.74s/it] 19%|█▉        | 997/5150 [2:25:31<10:02:44,  8.71s/it] 19%|█▉        | 998/5150 [2:25:40<10:00:57,  8.68s/it] 19%|█▉        | 999/5150 [2:25:48<9:59:41,  8.67s/it]  19%|█▉        | 1000/5150 [2:25:57<9:58:53,  8.66s/it]                                                       {'loss': '0.009335', 'grad_norm': '0.2961', 'learning_rate': '0.0001947', 'ppl': '1.009', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '141.8', 'tokens/total': 16384000, 'tokens/trainable': 5185317, 'epoch': '0.9699'}
+ 19%|█▉        | 1000/5150 [2:25:57<9:58:53,  8.66s/it] 19%|█▉        | 1001/5150 [2:26:06<10:04:11,  8.74s/it] 19%|█▉        | 1002/5150 [2:26:14<10:01:53,  8.71s/it] 19%|█▉        | 1003/5150 [2:26:23<10:00:12,  8.68s/it] 19%|█▉        | 1004/5150 [2:26:32<9:59:01,  8.67s/it]  20%|█▉        | 1005/5150 [2:26:41<10:04:39,  8.75s/it] 20%|█▉        | 1006/5150 [2:26:49<10:02:09,  8.72s/it] 20%|█▉        | 1007/5150 [2:26:58<10:00:37,  8.70s/it] 20%|█▉        | 1008/5150 [2:27:07<10:00:00,  8.69s/it] 20%|█▉        | 1009/5150 [2:27:15<9:59:22,  8.68s/it]  20%|█▉        | 1010/5150 [2:27:24<10:04:25,  8.76s/it]                                                        {'loss': '0.007928', 'grad_norm': '0.05245', 'learning_rate': '0.0001944', 'ppl': '1.008', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '141.5', 'tokens/total': 16547840, 'tokens/trainable': 5237174, 'epoch': '0.9796'}
+ 20%|█▉        | 1010/5150 [2:27:24<10:04:25,  8.76s/it] 20%|█▉        | 1011/5150 [2:27:33<10:01:42,  8.72s/it] 20%|█▉        | 1012/5150 [2:27:42<9:59:43,  8.70s/it]  20%|█▉        | 1013/5150 [2:27:50<9:58:21,  8.68s/it] 20%|█▉        | 1014/5150 [2:27:59<9:57:28,  8.67s/it] 20%|█▉        | 1015/5150 [2:28:08<10:02:31,  8.74s/it] 20%|█▉        | 1016/5150 [2:28:16<10:00:13,  8.71s/it] 20%|█▉        | 1017/5150 [2:28:25<9:58:30,  8.69s/it]  20%|█▉        | 1018/5150 [2:28:34<9:57:17,  8.67s/it] 20%|█▉        | 1019/5150 [2:28:43<10:02:06,  8.75s/it] 20%|█▉        | 1020/5150 [2:28:51<9:59:40,  8.71s/it]                                                        {'loss': '0.00103', 'grad_norm': '0.08854', 'learning_rate': '0.0001942', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '148.7', 'tokens/total': 16711680, 'tokens/trainable': 5289337, 'epoch': '0.9893'}
+ 20%|█▉        | 1020/5150 [2:28:51<9:59:40,  8.71s/it] 20%|█▉        | 1021/5150 [2:29:00<9:57:56,  8.69s/it] 20%|█▉        | 1022/5150 [2:29:08<9:56:38,  8.67s/it] 20%|█▉        | 1023/5150 [2:29:17<9:55:47,  8.66s/it] 20%|█▉        | 1024/5150 [2:29:26<10:01:24,  8.75s/it] 20%|█▉        | 1025/5150 [2:29:35<9:59:07,  8.71s/it]  20%|█▉        | 1026/5150 [2:29:43<9:57:23,  8.69s/it] 20%|█▉        | 1027/5150 [2:29:52<9:56:15,  8.68s/it] 20%|█▉        | 1028/5150 [2:30:01<10:01:38,  8.76s/it] 20%|█▉        | 1029/5150 [2:30:10<9:59:14,  8.72s/it]  20%|██        | 1030/5150 [2:30:18<9:58:00,  8.71s/it]                                                       {'loss': '0.00145', 'grad_norm': '0.05848', 'learning_rate': '0.000194', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '146.1', 'tokens/total': 16875520, 'tokens/trainable': 5341895, 'epoch': '0.999'}
+ 20%|██        | 1030/5150 [2:30:18<9:58:00,  8.71s/it][2026-03-05 06:02:58,899] [INFO] [axolotl.core.trainers.base.evaluate:400] [PID:1482537] Running evaluation step...
+[2026-03-05 06:02:59,993] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.5369071960449219
+[2026-03-05 06:03:00,542] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.5483763217926025
+[2026-03-05 06:03:01,091] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.5489001274108887
+[2026-03-05 06:03:01,656] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.5642726421356201
+[2026-03-05 06:03:01,656] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:1482537] gather_len_batches: [17]
+
+  0%|          | 0/17 [00:00<?, ?it/s][A
+ 12%|█▏        | 2/17 [00:00<00:04,  3.25it/s][A
+ 18%|█▊        | 3/17 [00:01<00:06,  2.29it/s][A
+ 24%|██▎       | 4/17 [00:01<00:06,  1.98it/s][A
+ 29%|██▉       | 5/17 [00:02<00:08,  1.39it/s][A
+ 35%|███▌      | 6/17 [00:03<00:07,  1.47it/s][A
+ 41%|████      | 7/17 [00:04<00:06,  1.51it/s][A
+ 47%|████▋     | 8/17 [00:04<00:05,  1.54it/s][A
+ 53%|█████▎    | 9/17 [00:05<00:05,  1.51it/s][A
+ 59%|█████▉    | 10/17 [00:06<00:04,  1.55it/s][A
+ 65%|██████▍   | 11/17 [00:06<00:03,  1.57it/s][A
+ 71%|███████   | 12/17 [00:07<00:03,  1.58it/s][A
+ 76%|███████▋  | 13/17 [00:08<00:02,  1.50it/s][A
+ 82%|████████▏ | 14/17 [00:08<00:01,  1.54it/s][A
+ 88%|████████▊ | 15/17 [00:09<00:01,  1.56it/s][A
+ 94%|█████████▍| 16/17 [00:09<00:00,  1.58it/s][ATraceback (most recent call last):
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 300, in _run_finalizers
+    finalizer()
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 224, in __call__
+    res = self._callback(*self._args, **self._kwargs)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 133, in _remove_temp_dir
+    rmtree(tempdir)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 725, in rmtree
+    _rmtree_safe_fd(fd, path, onerror)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 681, in _rmtree_safe_fd
+    onerror(os.unlink, fullname, sys.exc_info())
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 679, in _rmtree_safe_fd
+    os.unlink(entry.name, dir_fd=topfd)
+OSError: [Errno 16] Device or resource busy: '.nfs00000000000845fc000060ce'
+
+100%|██████████| 17/17 [00:10<00:00,  1.49it/s][A                                                       
+                                               [A{'eval_loss': '0.0006586', 'eval_runtime': '12.16', 'eval_samples_per_second': '16.45', 'eval_steps_per_second': '8.225', 'eval_ppl': '1.001', 'memory/max_active (GiB)': '14.2', 'memory/max_allocated (GiB)': '14.2', 'memory/device_reserved (GiB)': '18.85', 'epoch': '0.999', 'tokens/train_per_sec_per_gpu': '0'}
+ 20%|██        | 1030/5150 [2:30:33<9:58:00,  8.71s/it]
+100%|██████████| 17/17 [00:10<00:00,  1.49it/s][A
+                                               [A[2026-03-05 06:03:13,853] [INFO] [axolotl.core.trainers.base._save:721] [PID:1482537] Saving model checkpoint to /home/jiaruil5/math_rl/mix_teachers/r3lit_rl/mix_teachers/checkpoints/math_operations/primitive_atomic_balanced_sft_50k_t20260305/checkpoint-1030
+Traceback (most recent call last):
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 300, in _run_finalizers
+    finalizer()
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 224, in __call__
+    res = self._callback(*self._args, **self._kwargs)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 133, in _remove_temp_dir
+    rmtree(tempdir)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 725, in rmtree
+    _rmtree_safe_fd(fd, path, onerror)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 681, in _rmtree_safe_fd
+    onerror(os.unlink, fullname, sys.exc_info())
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 679, in _rmtree_safe_fd
+    os.unlink(entry.name, dir_fd=topfd)
+OSError: [Errno 16] Device or resource busy: '.nfs000000000005b4da000060cf'
+ 20%|██        | 1031/5150 [2:30:44<15:41:58, 13.72s/it] 20%|██        | 1032/5150 [2:30:54<14:39:45, 12.82s/it] 20%|██        | 1033/5150 [2:31:03<13:13:18, 11.56s/it] 20%|██        | 1034/5150 [2:31:12<12:12:48, 10.68s/it] 20%|██        | 1035/5150 [2:31:20<11:30:27, 10.07s/it] 20%|██        | 1036/5150 [2:31:29<11:09:24,  9.76s/it] 20%|██        | 1037/5150 [2:31:38<10:46:16,  9.43s/it] 20%|██        | 1038/5150 [2:31:47<10:30:18,  9.20s/it] 20%|██        | 1039/5150 [2:31:55<10:18:53,  9.03s/it] 20%|██        | 1040/5150 [2:32:04<10:17:12,  9.01s/it]                                                        {'loss': '0.002199', 'grad_norm': '0.08053', 'learning_rate': '0.0001938', 'ppl': '1.002', 'memory/max_active (GiB)': '16.73', 'memory/max_allocated (GiB)': '16.73', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '148.1', 'tokens/total': 17039360, 'tokens/trainable': 5393567, 'epoch': '1.009'}
+ 20%|██        | 1040/5150 [2:32:04<10:17:12,  9.01s/it] 20%|██        | 1041/5150 [2:32:13<10:09:39,  8.90s/it] 20%|██        | 1042/5150 [2:32:22<10:04:06,  8.82s/it] 20%|██        | 1043/5150 [2:32:30<10:00:08,  8.77s/it] 20%|██        | 1044/5150 [2:32:39<9:57:15,  8.73s/it]  20%|██        | 1045/5150 [2:32:48<10:01:22,  8.79s/it] 20%|██        | 1046/5150 [2:32:56<9:58:09,  8.74s/it]  20%|██        | 1047/5150 [2:33:05<9:55:44,  8.71s/it] 20%|██        | 1048/5150 [2:33:14<9:54:00,  8.69s/it] 20%|██        | 1049/5150 [2:33:23<9:59:06,  8.77s/it] 20%|██        | 1050/5150 [2:33:31<9:56:18,  8.73s/it]                                                       {'loss': '0.004156', 'grad_norm': '0.02874', 'learning_rate': '0.0001935', 'ppl': '1.004', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '144.8', 'tokens/total': 17203200, 'tokens/trainable': 5444838, 'epoch': '1.018'}
+ 20%|██        | 1050/5150 [2:33:31<9:56:18,  8.73s/it] 20%|██        | 1051/5150 [2:33:40<9:54:33,  8.70s/it] 20%|██        | 1052/5150 [2:33:49<9:53:14,  8.69s/it] 20%|██        | 1053/5150 [2:33:57<9:52:15,  8.67s/it] 20%|██        | 1054/5150 [2:34:06<9:58:05,  8.76s/it] 20%|██        | 1055/5150 [2:34:15<9:55:32,  8.73s/it] 21%|██        | 1056/5150 [2:34:23<9:53:38,  8.70s/it] 21%|██        | 1057/5150 [2:34:32<9:52:20,  8.68s/it] 21%|██        | 1058/5150 [2:34:41<9:58:02,  8.77s/it] 21%|██        | 1059/5150 [2:34:50<9:55:45,  8.74s/it] 21%|██        | 1060/5150 [2:34:58<9:54:09,  8.72s/it]                                                       {'loss': '0.001741', 'grad_norm': '0.02689', 'learning_rate': '0.0001933', 'ppl': '1.002', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '144.1', 'tokens/total': 17367040, 'tokens/trainable': 5497084, 'epoch': '1.028'}
+ 21%|██        | 1060/5150 [2:34:58<9:54:09,  8.72s/it] 21%|██        | 1061/5150 [2:35:07<9:53:24,  8.71s/it] 21%|██        | 1062/5150 [2:35:16<9:52:45,  8.70s/it] 21%|██        | 1063/5150 [2:35:25<9:59:08,  8.80s/it] 21%|██        | 1064/5150 [2:35:33<9:56:25,  8.76s/it] 21%|██        | 1065/5150 [2:35:42<9:54:39,  8.73s/it] 21%|██        | 1066/5150 [2:35:51<9:53:39,  8.72s/it] 21%|██        | 1067/5150 [2:36:00<9:58:50,  8.80s/it] 21%|██        | 1068/5150 [2:36:08<9:56:35,  8.77s/it] 21%|██        | 1069/5150 [2:36:17<9:54:54,  8.75s/it] 21%|██        | 1070/5150 [2:36:26<9:53:26,  8.73s/it]                                                       {'loss': '0.002082', 'grad_norm': '0.04423', 'learning_rate': '0.000193', 'ppl': '1.002', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '148.4', 'tokens/total': 17530880, 'tokens/trainable': 5548575, 'epoch': '1.038'}
+ 21%|██        | 1070/5150 [2:36:26<9:53:26,  8.73s/it] 21%|██        | 1071/5150 [2:36:35<9:52:21,  8.71s/it] 21%|██        | 1072/5150 [2:36:44<9:58:09,  8.80s/it] 21%|██        | 1073/5150 [2:36:52<9:55:18,  8.76s/it] 21%|██        | 1074/5150 [2:37:01<9:53:24,  8.74s/it] 21%|██        | 1075/5150 [2:37:10<9:52:13,  8.72s/it] 21%|██        | 1076/5150 [2:37:18<9:56:45,  8.79s/it] 21%|██        | 1077/5150 [2:37:27<9:53:34,  8.74s/it] 21%|██        | 1078/5150 [2:37:36<9:51:24,  8.71s/it] 21%|██        | 1079/5150 [2:37:44<9:49:45,  8.69s/it] 21%|██        | 1080/5150 [2:37:53<9:48:36,  8.68s/it]                                                       {'loss': '0.0008904', 'grad_norm': '0.04506', 'learning_rate': '0.0001928', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '149.4', 'tokens/total': 17694720, 'tokens/trainable': 5600311, 'epoch': '1.048'}
+ 21%|██        | 1080/5150 [2:37:53<9:48:36,  8.68s/it] 21%|██        | 1081/5150 [2:38:02<9:54:12,  8.76s/it] 21%|██        | 1082/5150 [2:38:11<9:52:03,  8.73s/it] 21%|██        | 1083/5150 [2:38:19<9:50:27,  8.71s/it] 21%|██        | 1084/5150 [2:38:28<9:49:13,  8.69s/it] 21%|██        | 1085/5150 [2:38:37<9:54:48,  8.78s/it] 21%|██        | 1086/5150 [2:38:46<9:52:06,  8.74s/it] 21%|██        | 1087/5150 [2:38:54<9:50:14,  8.72s/it] 21%|██        | 1088/5150 [2:39:03<9:50:04,  8.72s/it] 21%|██        | 1089/5150 [2:39:12<9:50:16,  8.72s/it] 21%|██        | 1090/5150 [2:39:21<9:55:07,  8.79s/it]                                                       {'loss': '0.001022', 'grad_norm': '0.0908', 'learning_rate': '0.0001925', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '151.9', 'tokens/total': 17858560, 'tokens/trainable': 5651879, 'epoch': '1.057'}
+ 21%|██        | 1090/5150 [2:39:21<9:55:07,  8.79s/it] 21%|██        | 1091/5150 [2:39:29<9:52:28,  8.76s/it] 21%|██        | 1092/5150 [2:39:38<9:50:26,  8.73s/it] 21%|██        | 1093/5150 [2:39:47<9:49:18,  8.72s/it] 21%|██        | 1094/5150 [2:39:56<9:53:49,  8.78s/it] 21%|██▏       | 1095/5150 [2:40:04<9:50:57,  8.74s/it] 21%|██▏       | 1096/5150 [2:40:13<9:48:52,  8.72s/it] 21%|██▏       | 1097/5150 [2:40:22<9:47:17,  8.69s/it] 21%|██▏       | 1098/5150 [2:40:30<9:46:09,  8.68s/it] 21%|██▏       | 1099/5150 [2:40:39<9:51:27,  8.76s/it] 21%|██▏       | 1100/5150 [2:40:48<9:48:51,  8.72s/it]                                                       {'loss': '0.001237', 'grad_norm': '0.05196', 'learning_rate': '0.0001923', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '144.7', 'tokens/total': 18022400, 'tokens/trainable': 5703462, 'epoch': '1.067'}
+ 21%|██▏       | 1100/5150 [2:40:48<9:48:51,  8.72s/it] 21%|██▏       | 1101/5150 [2:40:56<9:47:06,  8.70s/it] 21%|██▏       | 1102/5150 [2:41:05<9:45:50,  8.68s/it] 21%|██▏       | 1103/5150 [2:41:14<9:51:13,  8.77s/it] 21%|██▏       | 1104/5150 [2:41:23<9:48:39,  8.73s/it] 21%|██▏       | 1105/5150 [2:41:31<9:46:40,  8.70s/it] 21%|██▏       | 1106/5150 [2:41:40<9:45:13,  8.68s/it] 21%|██▏       | 1107/5150 [2:41:49<9:44:01,  8.67s/it] 22%|██▏       | 1108/5150 [2:41:58<9:49:00,  8.74s/it] 22%|██▏       | 1109/5150 [2:42:06<9:46:35,  8.71s/it] 22%|██▏       | 1110/5150 [2:42:15<9:44:57,  8.69s/it]                                                       {'loss': '0.001032', 'grad_norm': '0.01105', 'learning_rate': '0.000192', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '162.6', 'tokens/total': 18186240, 'tokens/trainable': 5754970, 'epoch': '1.077'}
+ 22%|██▏       | 1110/5150 [2:42:15<9:44:57,  8.69s/it] 22%|██▏       | 1111/5150 [2:42:23<9:43:54,  8.67s/it] 22%|██▏       | 1112/5150 [2:42:32<9:43:06,  8.66s/it] 22%|██▏       | 1113/5150 [2:42:41<9:48:20,  8.74s/it] 22%|██▏       | 1114/5150 [2:42:50<9:45:53,  8.71s/it] 22%|██▏       | 1115/5150 [2:42:58<9:44:11,  8.69s/it] 22%|██▏       | 1116/5150 [2:43:07<9:43:02,  8.67s/it] 22%|██▏       | 1117/5150 [2:43:16<9:48:29,  8.76s/it] 22%|██▏       | 1118/5150 [2:43:25<9:45:54,  8.72s/it] 22%|██▏       | 1119/5150 [2:43:33<9:43:59,  8.69s/it] 22%|██▏       | 1120/5150 [2:43:42<9:42:43,  8.68s/it]                                                       {'loss': '0.0008477', 'grad_norm': '0.02669', 'learning_rate': '0.0001917', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '162.4', 'tokens/total': 18350080, 'tokens/trainable': 5807239, 'epoch': '1.086'}
+ 22%|██▏       | 1120/5150 [2:43:42<9:42:43,  8.68s/it] 22%|██▏       | 1121/5150 [2:43:50<9:41:41,  8.66s/it] 22%|██▏       | 1122/5150 [2:43:59<9:46:38,  8.74s/it] 22%|██▏       | 1123/5150 [2:44:08<9:44:16,  8.71s/it] 22%|██▏       | 1124/5150 [2:44:17<9:42:36,  8.68s/it] 22%|██▏       | 1125/5150 [2:44:25<9:41:29,  8.67s/it] 22%|██▏       | 1126/5150 [2:44:34<9:46:56,  8.75s/it] 22%|██▏       | 1127/5150 [2:44:43<9:44:22,  8.72s/it] 22%|██▏       | 1128/5150 [2:44:51<9:42:32,  8.69s/it] 22%|██▏       | 1129/5150 [2:45:00<9:41:11,  8.67s/it] 22%|██▏       | 1130/5150 [2:45:09<9:46:38,  8.76s/it]                                                       {'loss': '0.0007371', 'grad_norm': '0.08715', 'learning_rate': '0.0001915', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '140.9', 'tokens/total': 18513920, 'tokens/trainable': 5858729, 'epoch': '1.096'}
+ 22%|██▏       | 1130/5150 [2:45:09<9:46:38,  8.76s/it] 22%|██▏       | 1131/5150 [2:45:18<9:44:22,  8.72s/it] 22%|██▏       | 1132/5150 [2:45:26<9:42:34,  8.70s/it] 22%|██▏       | 1133/5150 [2:45:35<9:41:08,  8.68s/it] 22%|██▏       | 1134/5150 [2:45:44<9:40:04,  8.67s/it] 22%|██▏       | 1135/5150 [2:45:53<9:45:49,  8.75s/it] 22%|██▏       | 1136/5150 [2:46:01<9:43:40,  8.72s/it] 22%|██▏       | 1137/5150 [2:46:10<9:42:15,  8.71s/it] 22%|██▏       | 1138/5150 [2:46:19<9:41:18,  8.69s/it] 22%|██▏       | 1139/5150 [2:46:27<9:46:39,  8.78s/it] 22%|██▏       | 1140/5150 [2:46:36<9:44:32,  8.75s/it]                                                       {'loss': '0.0004837', 'grad_norm': '0.01313', 'learning_rate': '0.0001912', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '145.3', 'tokens/total': 18677760, 'tokens/trainable': 5910759, 'epoch': '1.106'}
+ 22%|██▏       | 1140/5150 [2:46:36<9:44:32,  8.75s/it] 22%|██▏       | 1141/5150 [2:46:45<9:42:43,  8.72s/it] 22%|██▏       | 1142/5150 [2:46:53<9:41:00,  8.70s/it] 22%|██▏       | 1143/5150 [2:47:02<9:39:48,  8.68s/it] 22%|██▏       | 1144/5150 [2:47:11<9:45:00,  8.76s/it] 22%|██▏       | 1145/5150 [2:47:20<9:42:34,  8.73s/it] 22%|██▏       | 1146/5150 [2:47:28<9:41:13,  8.71s/it] 22%|██▏       | 1147/5150 [2:47:37<9:39:58,  8.69s/it] 22%|██▏       | 1148/5150 [2:47:46<9:44:52,  8.77s/it] 22%|██▏       | 1149/5150 [2:47:55<9:42:10,  8.73s/it] 22%|██▏       | 1150/5150 [2:48:03<9:40:09,  8.70s/it]                                                       {'loss': '0.0009543', 'grad_norm': '0.02261', 'learning_rate': '0.0001909', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '170.9', 'tokens/total': 18841600, 'tokens/trainable': 5962850, 'epoch': '1.115'}
+ 22%|██▏       | 1150/5150 [2:48:03<9:40:09,  8.70s/it] 22%|██▏       | 1151/5150 [2:48:12<9:38:57,  8.69s/it] 22%|██▏       | 1152/5150 [2:48:21<9:37:56,  8.67s/it] 22%|██▏       | 1153/5150 [2:48:30<9:43:15,  8.76s/it] 22%|██▏       | 1154/5150 [2:48:38<9:40:48,  8.72s/it] 22%|██▏       | 1155/5150 [2:48:47<9:39:03,  8.70s/it] 22%|██▏       | 1156/5150 [2:48:55<9:37:51,  8.68s/it] 22%|██▏       | 1157/5150 [2:49:04<9:42:39,  8.76s/it] 22%|██▏       | 1158/5150 [2:49:13<9:40:36,  8.73s/it] 23%|██▎       | 1159/5150 [2:49:22<9:39:08,  8.71s/it] 23%|██▎       | 1160/5150 [2:49:30<9:37:59,  8.69s/it]                                                       {'loss': '0.001487', 'grad_norm': '0.03137', 'learning_rate': '0.0001906', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '165.1', 'tokens/total': 19005440, 'tokens/trainable': 6014672, 'epoch': '1.125'}
+ 23%|██▎       | 1160/5150 [2:49:30<9:37:59,  8.69s/it] 23%|██▎       | 1161/5150 [2:49:39<9:37:17,  8.68s/it] 23%|██▎       | 1162/5150 [2:49:48<9:42:49,  8.77s/it] 23%|██▎       | 1163/5150 [2:49:57<9:40:11,  8.73s/it] 23%|██▎       | 1164/5150 [2:50:05<9:38:20,  8.71s/it] 23%|██▎       | 1165/5150 [2:50:14<9:37:17,  8.69s/it] 23%|██▎       | 1166/5150 [2:50:23<9:42:34,  8.77s/it] 23%|██▎       | 1167/5150 [2:50:32<9:39:58,  8.74s/it] 23%|██▎       | 1168/5150 [2:50:40<9:37:41,  8.70s/it] 23%|██▎       | 1169/5150 [2:50:49<9:36:08,  8.68s/it] 23%|██▎       | 1170/5150 [2:50:57<9:34:59,  8.67s/it]                                                       {'loss': '0.0008226', 'grad_norm': '0.03123', 'learning_rate': '0.0001903', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '141.8', 'tokens/total': 19169280, 'tokens/trainable': 6066713, 'epoch': '1.135'}
+ 23%|██▎       | 1170/5150 [2:50:57<9:34:59,  8.67s/it] 23%|██▎       | 1171/5150 [2:51:06<9:40:08,  8.75s/it] 23%|██▎       | 1172/5150 [2:51:15<9:37:46,  8.71s/it] 23%|██▎       | 1173/5150 [2:51:24<9:35:52,  8.69s/it] 23%|██▎       | 1174/5150 [2:51:32<9:34:31,  8.67s/it] 23%|██▎       | 1175/5150 [2:51:41<9:39:25,  8.75s/it] 23%|██▎       | 1176/5150 [2:51:50<9:36:48,  8.71s/it] 23%|██▎       | 1177/5150 [2:51:58<9:35:05,  8.68s/it] 23%|██▎       | 1178/5150 [2:52:07<9:33:52,  8.67s/it] 23%|██▎       | 1179/5150 [2:52:16<9:32:58,  8.66s/it] 23%|██▎       | 1180/5150 [2:52:25<9:38:19,  8.74s/it]                                                       {'loss': '0.0007243', 'grad_norm': '0.04853', 'learning_rate': '0.00019', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '143.7', 'tokens/total': 19333120, 'tokens/trainable': 6118771, 'epoch': '1.145'}
+ 23%|██▎       | 1180/5150 [2:52:25<9:38:19,  8.74s/it] 23%|██▎       | 1181/5150 [2:52:33<9:36:04,  8.71s/it] 23%|██▎       | 1182/5150 [2:52:42<9:34:20,  8.68s/it] 23%|██▎       | 1183/5150 [2:52:51<9:32:55,  8.67s/it] 23%|██▎       | 1184/5150 [2:52:59<9:37:49,  8.74s/it] 23%|██▎       | 1185/5150 [2:53:08<9:35:24,  8.71s/it] 23%|██▎       | 1186/5150 [2:53:17<9:33:37,  8.68s/it] 23%|██▎       | 1187/5150 [2:53:25<9:32:16,  8.66s/it] 23%|██▎       | 1188/5150 [2:53:34<9:31:19,  8.65s/it] 23%|██▎       | 1189/5150 [2:53:43<9:36:18,  8.73s/it] 23%|██▎       | 1190/5150 [2:53:51<9:34:07,  8.70s/it]                                                       {'loss': '0.000734', 'grad_norm': '0.02261', 'learning_rate': '0.0001897', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '161.7', 'tokens/total': 19496960, 'tokens/trainable': 6170299, 'epoch': '1.154'}
+ 23%|██▎       | 1190/5150 [2:53:51<9:34:07,  8.70s/it] 23%|██▎       | 1191/5150 [2:54:00<9:32:33,  8.68s/it] 23%|██▎       | 1192/5150 [2:54:09<9:31:23,  8.66s/it] 23%|██▎       | 1193/5150 [2:54:18<9:36:32,  8.74s/it] 23%|██▎       | 1194/5150 [2:54:26<9:34:12,  8.71s/it] 23%|██▎       | 1195/5150 [2:54:35<9:32:28,  8.68s/it] 23%|██▎       | 1196/5150 [2:54:44<9:31:18,  8.67s/it] 23%|██▎       | 1197/5150 [2:54:52<9:30:19,  8.66s/it] 23%|██▎       | 1198/5150 [2:55:01<9:35:18,  8.73s/it] 23%|██▎       | 1199/5150 [2:55:10<9:33:03,  8.70s/it] 23%|██▎       | 1200/5150 [2:55:18<9:31:38,  8.68s/it]                                                       {'loss': '0.0005232', 'grad_norm': '0.05415', 'learning_rate': '0.0001894', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '142.4', 'tokens/total': 19660800, 'tokens/trainable': 6222256, 'epoch': '1.164'}
+ 23%|██▎       | 1200/5150 [2:55:18<9:31:38,  8.68s/it] 23%|██▎       | 1201/5150 [2:55:27<9:30:39,  8.67s/it] 23%|██▎       | 1202/5150 [2:55:36<9:36:25,  8.76s/it] 23%|██▎       | 1203/5150 [2:55:45<9:33:48,  8.72s/it] 23%|██▎       | 1204/5150 [2:55:53<9:32:00,  8.70s/it] 23%|██▎       | 1205/5150 [2:56:02<9:30:34,  8.68s/it] 23%|██▎       | 1206/5150 [2:56:10<9:29:34,  8.66s/it] 23%|██▎       | 1207/5150 [2:56:19<9:34:38,  8.74s/it] 23%|██▎       | 1208/5150 [2:56:28<9:32:14,  8.71s/it] 23%|██▎       | 1209/5150 [2:56:37<9:30:35,  8.69s/it] 23%|██▎       | 1210/5150 [2:56:45<9:29:20,  8.67s/it]                                                       {'loss': '0.0005195', 'grad_norm': '0.01765', 'learning_rate': '0.0001891', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '153.7', 'tokens/total': 19824640, 'tokens/trainable': 6274220, 'epoch': '1.174'}
+ 23%|██▎       | 1210/5150 [2:56:45<9:29:20,  8.67s/it] 24%|██▎       | 1211/5150 [2:56:54<9:28:30,  8.66s/it] 24%|██▎       | 1212/5150 [2:57:03<9:33:36,  8.74s/it] 24%|██▎       | 1213/5150 [2:57:12<9:31:35,  8.71s/it] 24%|██▎       | 1214/5150 [2:57:20<9:29:53,  8.69s/it] 24%|██▎       | 1215/5150 [2:57:29<9:28:42,  8.67s/it] 24%|██▎       | 1216/5150 [2:57:38<9:33:47,  8.75s/it] 24%|██▎       | 1217/5150 [2:57:46<9:31:19,  8.72s/it] 24%|██▎       | 1218/5150 [2:57:55<9:29:25,  8.69s/it] 24%|██▎       | 1219/5150 [2:58:04<9:28:10,  8.67s/it] 24%|██▎       | 1220/5150 [2:58:13<9:33:17,  8.75s/it]                                                       {'loss': '0.0003704', 'grad_norm': '0.008458', 'learning_rate': '0.0001888', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '143.9', 'tokens/total': 19988480, 'tokens/trainable': 6325937, 'epoch': '1.183'}
+ 24%|██▎       | 1220/5150 [2:58:13<9:33:17,  8.75s/it] 24%|██▎       | 1221/5150 [2:58:21<9:30:46,  8.72s/it] 24%|██▎       | 1222/5150 [2:58:30<9:28:54,  8.69s/it] 24%|██▎       | 1223/5150 [2:58:38<9:27:37,  8.67s/it] 24%|██▍       | 1224/5150 [2:58:47<9:26:42,  8.66s/it] 24%|██▍       | 1225/5150 [2:58:56<9:31:35,  8.74s/it] 24%|██▍       | 1226/5150 [2:59:05<9:29:34,  8.71s/it] 24%|██▍       | 1227/5150 [2:59:13<9:27:56,  8.69s/it] 24%|██▍       | 1228/5150 [2:59:22<9:26:51,  8.67s/it] 24%|██▍       | 1229/5150 [2:59:31<9:32:05,  8.75s/it] 24%|██▍       | 1230/5150 [2:59:39<9:29:31,  8.72s/it]                                                       {'loss': '0.0006043', 'grad_norm': '0.08242', 'learning_rate': '0.0001885', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '149.7', 'tokens/total': 20152320, 'tokens/trainable': 6377429, 'epoch': '1.193'}
+ 24%|██▍       | 1230/5150 [2:59:40<9:29:31,  8.72s/it] 24%|██▍       | 1231/5150 [2:59:48<9:27:40,  8.69s/it] 24%|██▍       | 1232/5150 [2:59:57<9:26:31,  8.68s/it] 24%|██▍       | 1233/5150 [3:00:05<9:25:38,  8.66s/it] 24%|██▍       | 1234/5150 [3:00:14<9:30:47,  8.75s/it] 24%|██▍       | 1235/5150 [3:00:23<9:28:25,  8.71s/it] 24%|██▍       | 1236/5150 [3:00:32<9:26:49,  8.69s/it] 24%|██▍       | 1237/5150 [3:00:40<9:25:39,  8.67s/it] 24%|██▍       | 1238/5150 [3:00:49<9:30:20,  8.75s/it] 24%|██▍       | 1239/5150 [3:00:58<9:27:49,  8.71s/it] 24%|██▍       | 1240/5150 [3:01:06<9:25:59,  8.69s/it]                                                       {'loss': '0.0005559', 'grad_norm': '0.0507', 'learning_rate': '0.0001882', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '148.1', 'tokens/total': 20316160, 'tokens/trainable': 6429215, 'epoch': '1.203'}
+ 24%|██▍       | 1240/5150 [3:01:06<9:25:59,  8.69s/it] 24%|██▍       | 1241/5150 [3:01:15<9:24:41,  8.67s/it] 24%|██▍       | 1242/5150 [3:01:24<9:23:39,  8.65s/it] 24%|██▍       | 1243/5150 [3:01:33<9:28:52,  8.74s/it] 24%|██▍       | 1244/5150 [3:01:41<9:26:34,  8.70s/it] 24%|██▍       | 1245/5150 [3:01:50<9:24:52,  8.68s/it] 24%|██▍       | 1246/5150 [3:01:58<9:23:37,  8.66s/it] 24%|██▍       | 1247/5150 [3:02:07<9:28:24,  8.74s/it] 24%|██▍       | 1248/5150 [3:02:16<9:26:08,  8.71s/it] 24%|██▍       | 1249/5150 [3:02:25<9:24:31,  8.68s/it] 24%|██▍       | 1250/5150 [3:02:33<9:23:22,  8.67s/it]                                                       {'loss': '0.0004247', 'grad_norm': '0.02208', 'learning_rate': '0.0001879', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '154.3', 'tokens/total': 20480000, 'tokens/trainable': 6480259, 'epoch': '1.212'}
+ 24%|██▍       | 1250/5150 [3:02:33<9:23:22,  8.67s/it] 24%|██▍       | 1251/5150 [3:02:42<9:22:33,  8.66s/it] 24%|██▍       | 1252/5150 [3:02:51<9:27:37,  8.74s/it] 24%|██▍       | 1253/5150 [3:02:59<9:25:29,  8.71s/it] 24%|██▍       | 1254/5150 [3:03:08<9:23:48,  8.68s/it] 24%|██▍       | 1255/5150 [3:03:17<9:22:46,  8.67s/it] 24%|██▍       | 1256/5150 [3:03:26<9:27:41,  8.75s/it] 24%|██▍       | 1257/5150 [3:03:34<9:25:13,  8.71s/it] 24%|██▍       | 1258/5150 [3:03:43<9:23:27,  8.69s/it] 24%|██▍       | 1259/5150 [3:03:52<9:22:13,  8.67s/it] 24%|██▍       | 1260/5150 [3:04:00<9:21:11,  8.66s/it]                                                       {'loss': '0.000541', 'grad_norm': '0.03409', 'learning_rate': '0.0001876', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '142.4', 'tokens/total': 20643840, 'tokens/trainable': 6531923, 'epoch': '1.222'}
+ 24%|██▍       | 1260/5150 [3:04:00<9:21:11,  8.66s/it] 24%|██▍       | 1261/5150 [3:04:09<9:26:12,  8.74s/it] 25%|██▍       | 1262/5150 [3:04:18<9:23:57,  8.70s/it] 25%|██▍       | 1263/5150 [3:04:26<9:22:22,  8.68s/it] 25%|██▍       | 1264/5150 [3:04:35<9:21:10,  8.66s/it] 25%|██▍       | 1265/5150 [3:04:44<9:26:15,  8.75s/it] 25%|██▍       | 1266/5150 [3:04:53<9:24:24,  8.72s/it] 25%|██▍       | 1267/5150 [3:05:01<9:22:59,  8.70s/it] 25%|██▍       | 1268/5150 [3:05:10<9:21:56,  8.69s/it] 25%|██▍       | 1269/5150 [3:05:19<9:20:50,  8.67s/it] 25%|██▍       | 1270/5150 [3:05:27<9:25:53,  8.75s/it]                                                       {'loss': '0.0005581', 'grad_norm': '0.06769', 'learning_rate': '0.0001872', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '146.5', 'tokens/total': 20807680, 'tokens/trainable': 6583651, 'epoch': '1.232'}
+ 25%|██▍       | 1270/5150 [3:05:27<9:25:53,  8.75s/it] 25%|██▍       | 1271/5150 [3:05:36<9:23:45,  8.72s/it] 25%|██▍       | 1272/5150 [3:05:45<9:22:09,  8.70s/it] 25%|██▍       | 1273/5150 [3:05:53<9:21:00,  8.68s/it] 25%|██▍       | 1274/5150 [3:06:02<9:25:51,  8.76s/it] 25%|██▍       | 1275/5150 [3:06:11<9:23:12,  8.72s/it] 25%|██▍       | 1276/5150 [3:06:20<9:21:21,  8.69s/it] 25%|██▍       | 1277/5150 [3:06:28<9:19:58,  8.68s/it] 25%|██▍       | 1278/5150 [3:06:37<9:19:04,  8.66s/it] 25%|██▍       | 1279/5150 [3:06:46<9:23:39,  8.74s/it] 25%|██▍       | 1280/5150 [3:06:54<9:21:36,  8.71s/it]                                                       {'loss': '0.001209', 'grad_norm': '0.0008792', 'learning_rate': '0.0001869', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '143.4', 'tokens/total': 20971520, 'tokens/trainable': 6634980, 'epoch': '1.242'}
+ 25%|██▍       | 1280/5150 [3:06:54<9:21:36,  8.71s/it] 25%|██▍       | 1281/5150 [3:07:03<9:20:04,  8.69s/it] 25%|██▍       | 1282/5150 [3:07:12<9:18:55,  8.67s/it] 25%|██▍       | 1283/5150 [3:07:20<9:18:10,  8.66s/it] 25%|██▍       | 1284/5150 [3:07:29<9:23:27,  8.74s/it] 25%|██▍       | 1285/5150 [3:07:38<9:21:12,  8.71s/it] 25%|██▍       | 1286/5150 [3:07:47<9:19:37,  8.69s/it] 25%|██▍       | 1287/5150 [3:07:55<9:18:31,  8.67s/it] 25%|██▌       | 1288/5150 [3:08:04<9:23:23,  8.75s/it] 25%|██▌       | 1289/5150 [3:08:13<9:20:53,  8.72s/it] 25%|██▌       | 1290/5150 [3:08:21<9:19:12,  8.69s/it]                                                       {'loss': '0.00114', 'grad_norm': '0.02336', 'learning_rate': '0.0001866', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '145.4', 'tokens/total': 21135360, 'tokens/trainable': 6686530, 'epoch': '1.251'}
+ 25%|██▌       | 1290/5150 [3:08:21<9:19:12,  8.69s/it] 25%|██▌       | 1291/5150 [3:08:30<9:18:08,  8.68s/it] 25%|██▌       | 1292/5150 [3:08:39<9:17:11,  8.67s/it] 25%|██▌       | 1293/5150 [3:08:48<9:22:13,  8.75s/it] 25%|██▌       | 1294/5150 [3:08:56<9:19:53,  8.71s/it] 25%|██▌       | 1295/5150 [3:09:05<9:18:16,  8.69s/it] 25%|██▌       | 1296/5150 [3:09:13<9:17:04,  8.67s/it] 25%|██▌       | 1297/5150 [3:09:22<9:21:48,  8.75s/it] 25%|██▌       | 1298/5150 [3:09:31<9:19:34,  8.72s/it] 25%|██▌       | 1299/5150 [3:09:40<9:17:54,  8.69s/it] 25%|██▌       | 1300/5150 [3:09:48<9:16:38,  8.67s/it]                                                       {'loss': '0.001093', 'grad_norm': '0.0431', 'learning_rate': '0.0001862', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '149.2', 'tokens/total': 21299200, 'tokens/trainable': 6738813, 'epoch': '1.261'}
+ 25%|██▌       | 1300/5150 [3:09:48<9:16:38,  8.67s/it] 25%|██▌       | 1301/5150 [3:09:57<9:15:48,  8.66s/it] 25%|██▌       | 1302/5150 [3:10:06<9:20:59,  8.75s/it] 25%|██▌       | 1303/5150 [3:10:15<9:18:48,  8.72s/it] 25%|██▌       | 1304/5150 [3:10:23<9:17:06,  8.69s/it] 25%|██▌       | 1305/5150 [3:10:32<9:15:49,  8.67s/it] 25%|██▌       | 1306/5150 [3:10:41<9:20:38,  8.75s/it] 25%|██▌       | 1307/5150 [3:10:49<9:18:09,  8.71s/it] 25%|██▌       | 1308/5150 [3:10:58<9:16:24,  8.69s/it] 25%|██▌       | 1309/5150 [3:11:07<9:15:09,  8.67s/it] 25%|██▌       | 1310/5150 [3:11:16<9:19:56,  8.75s/it]                                                       {'loss': '0.0009165', 'grad_norm': '0.03979', 'learning_rate': '0.0001859', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '147.6', 'tokens/total': 21463040, 'tokens/trainable': 6790531, 'epoch': '1.271'}
+ 25%|██▌       | 1310/5150 [3:11:16<9:19:56,  8.75s/it] 25%|██▌       | 1311/5150 [3:11:24<9:17:30,  8.71s/it] 25%|██▌       | 1312/5150 [3:11:33<9:15:50,  8.69s/it] 25%|██▌       | 1313/5150 [3:11:41<9:14:38,  8.67s/it] 26%|██▌       | 1314/5150 [3:11:50<9:13:39,  8.66s/it] 26%|██▌       | 1315/5150 [3:11:59<9:18:30,  8.74s/it] 26%|██▌       | 1316/5150 [3:12:08<9:16:11,  8.70s/it] 26%|██▌       | 1317/5150 [3:12:16<9:14:40,  8.68s/it] 26%|██▌       | 1318/5150 [3:12:25<9:13:41,  8.67s/it] 26%|██▌       | 1319/5150 [3:12:34<9:18:19,  8.74s/it] 26%|██▌       | 1320/5150 [3:12:42<9:15:56,  8.71s/it]                                                       {'loss': '0.0006453', 'grad_norm': '0.007428', 'learning_rate': '0.0001855', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '153.6', 'tokens/total': 21626880, 'tokens/trainable': 6841976, 'epoch': '1.28'}
+ 26%|██▌       | 1320/5150 [3:12:42<9:15:56,  8.71s/it] 26%|██▌       | 1321/5150 [3:12:51<9:14:14,  8.69s/it] 26%|██▌       | 1322/5150 [3:13:00<9:13:07,  8.67s/it] 26%|██▌       | 1323/5150 [3:13:08<9:12:12,  8.66s/it] 26%|██▌       | 1324/5150 [3:13:17<9:17:20,  8.74s/it] 26%|██▌       | 1325/5150 [3:13:26<9:15:04,  8.71s/it] 26%|██▌       | 1326/5150 [3:13:35<9:13:30,  8.68s/it] 26%|██▌       | 1327/5150 [3:13:43<9:12:16,  8.67s/it] 26%|██▌       | 1328/5150 [3:13:52<9:16:46,  8.74s/it] 26%|██▌       | 1329/5150 [3:14:01<9:14:43,  8.71s/it] 26%|██▌       | 1330/5150 [3:14:09<9:13:07,  8.69s/it]                                                       {'loss': '0.000487', 'grad_norm': '0.01354', 'learning_rate': '0.0001852', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '144.4', 'tokens/total': 21790720, 'tokens/trainable': 6893814, 'epoch': '1.29'}
+ 26%|██▌       | 1330/5150 [3:14:09<9:13:07,  8.69s/it] 26%|██▌       | 1331/5150 [3:14:18<9:12:43,  8.68s/it] 26%|██▌       | 1332/5150 [3:14:27<9:12:12,  8.68s/it] 26%|██▌       | 1333/5150 [3:14:36<9:17:31,  8.76s/it] 26%|██▌       | 1334/5150 [3:14:44<9:15:31,  8.73s/it] 26%|██▌       | 1335/5150 [3:14:53<9:13:58,  8.71s/it] 26%|██▌       | 1336/5150 [3:15:02<9:12:35,  8.69s/it] 26%|██▌       | 1337/5150 [3:15:11<9:17:20,  8.77s/it] 26%|██▌       | 1338/5150 [3:15:19<9:14:45,  8.73s/it] 26%|██▌       | 1339/5150 [3:15:28<9:12:57,  8.71s/it] 26%|██▌       | 1340/5150 [3:15:37<9:12:18,  8.70s/it]                                                       {'loss': '0.0006183', 'grad_norm': '0.02376', 'learning_rate': '0.0001848', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '152.4', 'tokens/total': 21954560, 'tokens/trainable': 6946077, 'epoch': '1.3'}
+ 26%|██▌       | 1340/5150 [3:15:37<9:12:18,  8.70s/it] 26%|██▌       | 1341/5150 [3:15:45<9:11:41,  8.69s/it] 26%|██▌       | 1342/5150 [3:15:54<9:17:14,  8.78s/it] 26%|██▌       | 1343/5150 [3:16:03<9:15:01,  8.75s/it] 26%|██▌       | 1344/5150 [3:16:12<9:13:31,  8.73s/it] 26%|██▌       | 1345/5150 [3:16:20<9:12:06,  8.71s/it] 26%|██▌       | 1346/5150 [3:16:29<9:16:54,  8.78s/it] 26%|██▌       | 1347/5150 [3:16:38<9:14:27,  8.75s/it] 26%|██▌       | 1348/5150 [3:16:46<9:12:32,  8.72s/it] 26%|██▌       | 1349/5150 [3:16:55<9:11:12,  8.70s/it] 26%|██▌       | 1350/5150 [3:17:04<9:09:59,  8.68s/it]                                                       {'loss': '0.0004662', 'grad_norm': '0.002305', 'learning_rate': '0.0001844', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '142.6', 'tokens/total': 22118400, 'tokens/trainable': 6997686, 'epoch': '1.309'}
+ 26%|██▌       | 1350/5150 [3:17:04<9:09:59,  8.68s/it] 26%|██▌       | 1351/5150 [3:17:13<9:14:45,  8.76s/it] 26%|██▋       | 1352/5150 [3:17:21<9:12:17,  8.72s/it] 26%|██▋       | 1353/5150 [3:17:30<9:10:28,  8.70s/it] 26%|██▋       | 1354/5150 [3:17:39<9:09:11,  8.68s/it] 26%|██▋       | 1355/5150 [3:17:48<9:13:54,  8.76s/it] 26%|██▋       | 1356/5150 [3:17:56<9:11:29,  8.72s/it] 26%|██▋       | 1357/5150 [3:18:05<9:09:40,  8.70s/it] 26%|██▋       | 1358/5150 [3:18:14<9:08:28,  8.68s/it] 26%|██▋       | 1359/5150 [3:18:22<9:07:28,  8.66s/it] 26%|██▋       | 1360/5150 [3:18:31<9:12:20,  8.74s/it]                                                       {'loss': '0.0004318', 'grad_norm': '0.003866', 'learning_rate': '0.0001841', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '141.3', 'tokens/total': 22282240, 'tokens/trainable': 7049464, 'epoch': '1.319'}
+ 26%|██▋       | 1360/5150 [3:18:31<9:12:20,  8.74s/it] 26%|██▋       | 1361/5150 [3:18:40<9:10:14,  8.71s/it] 26%|██▋       | 1362/5150 [3:18:48<9:08:39,  8.69s/it] 26%|██▋       | 1363/5150 [3:18:57<9:07:29,  8.67s/it] 26%|██▋       | 1364/5150 [3:19:06<9:12:13,  8.75s/it] 27%|██▋       | 1365/5150 [3:19:15<9:09:54,  8.72s/it] 27%|██▋       | 1366/5150 [3:19:23<9:08:40,  8.70s/it] 27%|██▋       | 1367/5150 [3:19:32<9:07:23,  8.68s/it] 27%|██▋       | 1368/5150 [3:19:40<9:06:27,  8.67s/it] 27%|██▋       | 1369/5150 [3:19:49<9:11:34,  8.75s/it] 27%|██▋       | 1370/5150 [3:19:58<9:09:01,  8.71s/it]                                                       {'loss': '0.0003584', 'grad_norm': '0.01038', 'learning_rate': '0.0001837', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '146.1', 'tokens/total': 22446080, 'tokens/trainable': 7101081, 'epoch': '1.329'}
+ 27%|██▋       | 1370/5150 [3:19:58<9:09:01,  8.71s/it] 27%|██▋       | 1371/5150 [3:20:07<9:07:20,  8.69s/it] 27%|██▋       | 1372/5150 [3:20:15<9:06:04,  8.67s/it] 27%|██▋       | 1373/5150 [3:20:24<9:10:39,  8.75s/it] 27%|██▋       | 1374/5150 [3:20:33<9:08:14,  8.71s/it] 27%|██▋       | 1375/5150 [3:20:42<9:06:36,  8.69s/it] 27%|██▋       | 1376/5150 [3:20:50<9:05:19,  8.67s/it] 27%|██▋       | 1377/5150 [3:20:59<9:09:52,  8.74s/it] 27%|██▋       | 1378/5150 [3:21:08<9:07:34,  8.71s/it] 27%|██▋       | 1379/5150 [3:21:16<9:05:52,  8.69s/it] 27%|██▋       | 1380/5150 [3:21:25<9:04:47,  8.67s/it]                                                       {'loss': '0.0001622', 'grad_norm': '0.005762', 'learning_rate': '0.0001833', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '146.8', 'tokens/total': 22609920, 'tokens/trainable': 7153249, 'epoch': '1.339'}
+ 27%|██▋       | 1380/5150 [3:21:25<9:04:47,  8.67s/it] 27%|██▋       | 1381/5150 [3:21:34<9:03:49,  8.66s/it] 27%|██▋       | 1382/5150 [3:21:43<9:08:43,  8.74s/it] 27%|██▋       | 1383/5150 [3:21:51<9:06:29,  8.70s/it] 27%|██▋       | 1384/5150 [3:22:00<9:04:59,  8.68s/it] 27%|██▋       | 1385/5150 [3:22:08<9:03:54,  8.67s/it] 27%|██▋       | 1386/5150 [3:22:17<9:08:39,  8.75s/it] 27%|██▋       | 1387/5150 [3:22:26<9:06:16,  8.71s/it] 27%|██▋       | 1388/5150 [3:22:35<9:04:38,  8.69s/it] 27%|██▋       | 1389/5150 [3:22:43<9:03:24,  8.67s/it] 27%|██▋       | 1390/5150 [3:22:52<9:02:32,  8.66s/it]                                                       {'loss': '0.0005521', 'grad_norm': '0.0457', 'learning_rate': '0.000183', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '163.8', 'tokens/total': 22773760, 'tokens/trainable': 7205495, 'epoch': '1.348'}
+ 27%|██▋       | 1390/5150 [3:22:52<9:02:32,  8.66s/it] 27%|██▋       | 1391/5150 [3:23:01<9:07:42,  8.74s/it] 27%|██▋       | 1392/5150 [3:23:09<9:05:26,  8.71s/it] 27%|██▋       | 1393/5150 [3:23:18<9:03:58,  8.69s/it] 27%|██▋       | 1394/5150 [3:23:27<9:02:45,  8.67s/it] 27%|██▋       | 1395/5150 [3:23:36<9:07:27,  8.75s/it] 27%|██▋       | 1396/5150 [3:23:44<9:05:23,  8.72s/it] 27%|██▋       | 1397/5150 [3:23:53<9:03:59,  8.70s/it] 27%|██▋       | 1398/5150 [3:24:02<9:02:49,  8.68s/it] 27%|██▋       | 1399/5150 [3:24:10<9:02:14,  8.67s/it] 27%|██▋       | 1400/5150 [3:24:19<9:07:25,  8.76s/it]                                                       {'loss': '0.0006017', 'grad_norm': '0.03923', 'learning_rate': '0.0001826', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '145', 'tokens/total': 22937600, 'tokens/trainable': 7257553, 'epoch': '1.358'}
+ 27%|██▋       | 1400/5150 [3:24:19<9:07:25,  8.76s/it] 27%|██▋       | 1401/5150 [3:24:28<9:05:04,  8.72s/it] 27%|██▋       | 1402/5150 [3:24:36<9:03:19,  8.70s/it] 27%|██▋       | 1403/5150 [3:24:45<9:02:00,  8.68s/it] 27%|██▋       | 1404/5150 [3:24:54<9:06:39,  8.76s/it] 27%|██▋       | 1405/5150 [3:25:03<9:04:23,  8.72s/it] 27%|██▋       | 1406/5150 [3:25:11<9:03:31,  8.71s/it] 27%|██▋       | 1407/5150 [3:25:20<9:01:56,  8.69s/it] 27%|██▋       | 1408/5150 [3:25:29<9:00:46,  8.67s/it] 27%|██▋       | 1409/5150 [3:25:38<9:05:33,  8.75s/it] 27%|██▋       | 1410/5150 [3:25:46<9:03:16,  8.72s/it]                                                       {'loss': '0.000243', 'grad_norm': '0.02479', 'learning_rate': '0.0001822', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '144', 'tokens/total': 23101440, 'tokens/trainable': 7309560, 'epoch': '1.368'}
+ 27%|██▋       | 1410/5150 [3:25:46<9:03:16,  8.72s/it] 27%|██▋       | 1411/5150 [3:25:55<9:01:39,  8.69s/it] 27%|██▋       | 1412/5150 [3:26:03<9:00:30,  8.68s/it] 27%|██▋       | 1413/5150 [3:26:12<9:05:22,  8.76s/it] 27%|██��       | 1414/5150 [3:26:21<9:03:01,  8.72s/it] 27%|██▋       | 1415/5150 [3:26:30<9:01:13,  8.69s/it] 27%|██▋       | 1416/5150 [3:26:38<8:59:58,  8.68s/it] 28%|██▊       | 1417/5150 [3:26:47<8:58:55,  8.66s/it] 28%|██▊       | 1418/5150 [3:26:56<9:03:47,  8.74s/it] 28%|██▊       | 1419/5150 [3:27:04<9:01:38,  8.71s/it] 28%|██▊       | 1420/5150 [3:27:13<9:00:00,  8.69s/it]                                                       {'loss': '0.0004016', 'grad_norm': '0.01018', 'learning_rate': '0.0001818', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '146.3', 'tokens/total': 23265280, 'tokens/trainable': 7361573, 'epoch': '1.377'}
+ 28%|██▊       | 1420/5150 [3:27:13<9:00:00,  8.69s/it] 28%|██▊       | 1421/5150 [3:27:22<8:58:53,  8.67s/it] 28%|██▊       | 1422/5150 [3:27:31<9:03:31,  8.75s/it] 28%|██▊       | 1423/5150 [3:27:39<9:01:23,  8.72s/it] 28%|██▊       | 1424/5150 [3:27:48<8:59:56,  8.69s/it] 28%|██▊       | 1425/5150 [3:27:57<8:58:39,  8.68s/it] 28%|██▊       | 1426/5150 [3:28:05<8:57:50,  8.67s/it] 28%|██▊       | 1427/5150 [3:28:14<9:02:52,  8.75s/it] 28%|██▊       | 1428/5150 [3:28:23<9:00:37,  8.72s/it] 28%|██▊       | 1429/5150 [3:28:31<8:58:58,  8.69s/it] 28%|██▊       | 1430/5150 [3:28:40<8:57:47,  8.67s/it]                                                       {'loss': '0.0004997', 'grad_norm': '0.03283', 'learning_rate': '0.0001814', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '159.6', 'tokens/total': 23429120, 'tokens/trainable': 7413728, 'epoch': '1.387'}
+ 28%|██▊       | 1430/5150 [3:28:40<8:57:47,  8.67s/it] 28%|██▊       | 1431/5150 [3:28:49<9:02:28,  8.75s/it] 28%|██▊       | 1432/5150 [3:28:58<9:00:08,  8.72s/it] 28%|██▊       | 1433/5150 [3:29:06<8:58:27,  8.69s/it] 28%|██▊       | 1434/5150 [3:29:15<8:57:12,  8.67s/it] 28%|██▊       | 1435/5150 [3:29:24<8:56:11,  8.66s/it] 28%|██▊       | 1436/5150 [3:29:32<9:00:57,  8.74s/it] 28%|██▊       | 1437/5150 [3:29:41<8:58:40,  8.70s/it] 28%|██▊       | 1438/5150 [3:29:50<8:57:02,  8.68s/it] 28%|██▊       | 1439/5150 [3:29:58<8:56:02,  8.67s/it] 28%|██▊       | 1440/5150 [3:30:07<9:00:48,  8.75s/it]                                                       {'loss': '0.0002303', 'grad_norm': '0.01423', 'learning_rate': '0.000181', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '140', 'tokens/total': 23592960, 'tokens/trainable': 7466043, 'epoch': '1.397'}
+ 28%|██▊       | 1440/5150 [3:30:07<9:00:48,  8.75s/it] 28%|██▊       | 1441/5150 [3:30:16<8:58:25,  8.71s/it] 28%|██▊       | 1442/5150 [3:30:25<8:56:44,  8.69s/it] 28%|██▊       | 1443/5150 [3:30:33<8:55:24,  8.67s/it] 28%|██▊       | 1444/5150 [3:30:42<8:54:26,  8.65s/it] 28%|██▊       | 1445/5150 [3:30:51<8:59:07,  8.73s/it] 28%|██▊       | 1446/5150 [3:30:59<8:56:57,  8.70s/it] 28%|██▊       | 1447/5150 [3:31:08<8:55:22,  8.67s/it] 28%|██▊       | 1448/5150 [3:31:17<8:54:13,  8.66s/it] 28%|██▊       | 1449/5150 [3:31:25<8:59:06,  8.74s/it] 28%|██▊       | 1450/5150 [3:31:34<8:56:44,  8.70s/it]                                                       {'loss': '0.0004205', 'grad_norm': '0.006022', 'learning_rate': '0.0001806', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '145.8', 'tokens/total': 23756800, 'tokens/trainable': 7517470, 'epoch': '1.406'}
+ 28%|██▊       | 1450/5150 [3:31:34<8:56:44,  8.70s/it] 28%|██▊       | 1451/5150 [3:31:43<8:55:18,  8.68s/it] 28%|██▊       | 1452/5150 [3:31:51<8:53:56,  8.66s/it] 28%|██▊       | 1453/5150 [3:32:00<8:53:11,  8.65s/it] 28%|██▊       | 1454/5150 [3:32:09<8:58:05,  8.74s/it] 28%|██▊       | 1455/5150 [3:32:18<8:55:56,  8.70s/it] 28%|██▊       | 1456/5150 [3:32:26<8:54:17,  8.68s/it] 28%|██▊       | 1457/5150 [3:32:35<8:53:05,  8.66s/it] 28%|██▊       | 1458/5150 [3:32:44<8:57:31,  8.74s/it] 28%|██▊       | 1459/5150 [3:32:52<8:55:18,  8.70s/it] 28%|██▊       | 1460/5150 [3:33:01<8:53:45,  8.68s/it]                                                       {'loss': '0.0002963', 'grad_norm': '0.002003', 'learning_rate': '0.0001802', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '166.8', 'tokens/total': 23920640, 'tokens/trainable': 7569502, 'epoch': '1.416'}
+ 28%|██▊       | 1460/5150 [3:33:01<8:53:45,  8.68s/it] 28%|██▊       | 1461/5150 [3:33:10<8:52:34,  8.66s/it] 28%|██▊       | 1462/5150 [3:33:18<8:51:54,  8.65s/it] 28%|██▊       | 1463/5150 [3:33:27<8:57:00,  8.74s/it] 28%|██▊       | 1464/5150 [3:33:36<8:54:52,  8.71s/it] 28%|██▊       | 1465/5150 [3:33:44<8:53:19,  8.68s/it] 28%|██▊       | 1466/5150 [3:33:53<8:52:13,  8.67s/it] 28%|██▊       | 1467/5150 [3:34:02<8:56:39,  8.74s/it] 29%|██▊       | 1468/5150 [3:34:11<8:54:32,  8.71s/it] 29%|██▊       | 1469/5150 [3:34:19<8:52:56,  8.69s/it] 29%|██▊       | 1470/5150 [3:34:28<8:51:50,  8.67s/it]                                                       {'loss': '0.0003648', 'grad_norm': '0.001539', 'learning_rate': '0.0001798', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '147.9', 'tokens/total': 24084480, 'tokens/trainable': 7621715, 'epoch': '1.426'}
+ 29%|██▊       | 1470/5150 [3:34:28<8:51:50,  8.67s/it] 29%|██▊       | 1471/5150 [3:34:36<8:51:09,  8.66s/it] 29%|██▊       | 1472/5150 [3:34:45<8:56:05,  8.75s/it] 29%|██▊       | 1473/5150 [3:34:54<8:53:50,  8.71s/it] 29%|██▊       | 1474/5150 [3:35:03<8:52:18,  8.69s/it] 29%|██▊       | 1475/5150 [3:35:11<8:51:12,  8.67s/it] 29%|██▊       | 1476/5150 [3:35:20<8:55:55,  8.75s/it] 29%|██▊       | 1477/5150 [3:35:29<8:53:32,  8.72s/it] 29%|██▊       | 1478/5150 [3:35:38<8:51:52,  8.69s/it] 29%|██▊       | 1479/5150 [3:35:46<8:50:54,  8.68s/it] 29%|██▊       | 1480/5150 [3:35:55<8:49:59,  8.66s/it]                                                       {'loss': '0.0002628', 'grad_norm': '0.0007623', 'learning_rate': '0.0001794', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '153.1', 'tokens/total': 24248320, 'tokens/trainable': 7673909, 'epoch': '1.435'}
+ 29%|██▊       | 1480/5150 [3:35:55<8:49:59,  8.66s/it] 29%|██▉       | 1481/5150 [3:36:04<8:54:54,  8.75s/it] 29%|██▉       | 1482/5150 [3:36:12<8:52:37,  8.71s/it] 29%|██▉       | 1483/5150 [3:36:21<8:51:10,  8.69s/it] 29%|██▉       | 1484/5150 [3:36:30<8:49:57,  8.67s/it] 29%|██▉       | 1485/5150 [3:36:39<8:54:26,  8.75s/it] 29%|██▉       | 1486/5150 [3:36:47<8:52:15,  8.72s/it] 29%|██▉       | 1487/5150 [3:36:56<8:50:42,  8.69s/it] 29%|██▉       | 1488/5150 [3:37:05<8:49:28,  8.68s/it] 29%|██▉       | 1489/5150 [3:37:13<8:48:36,  8.66s/it] 29%|██▉       | 1490/5150 [3:37:22<8:53:33,  8.75s/it]                                                       {'loss': '0.0002664', 'grad_norm': '0.0009573', 'learning_rate': '0.000179', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '161.7', 'tokens/total': 24412160, 'tokens/trainable': 7726752, 'epoch': '1.445'}
+ 29%|██▉       | 1490/5150 [3:37:22<8:53:33,  8.75s/it] 29%|██▉       | 1491/5150 [3:37:31<8:51:22,  8.71s/it] 29%|██▉       | 1492/5150 [3:37:39<8:49:48,  8.69s/it] 29%|██▉       | 1493/5150 [3:37:48<8:48:47,  8.68s/it] 29%|██▉       | 1494/5150 [3:37:57<8:47:58,  8.66s/it] 29%|██▉       | 1495/5150 [3:38:06<8:52:43,  8.75s/it] 29%|██▉       | 1496/5150 [3:38:14<8:50:40,  8.71s/it] 29%|██▉       | 1497/5150 [3:38:23<8:49:07,  8.69s/it] 29%|██▉       | 1498/5150 [3:38:31<8:47:56,  8.67s/it] 29%|██▉       | 1499/5150 [3:38:40<8:52:30,  8.75s/it] 29%|██▉       | 1500/5150 [3:38:49<8:50:11,  8.72s/it]                                                       {'loss': '0.0004588', 'grad_norm': '0.008193', 'learning_rate': '0.0001786', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '151.6', 'tokens/total': 24576000, 'tokens/trainable': 7778692, 'epoch': '1.455'}
+ 29%|██▉       | 1500/5150 [3:38:49<8:50:11,  8.72s/it] 29%|██▉       | 1501/5150 [3:38:58<8:48:26,  8.69s/it] 29%|██▉       | 1502/5150 [3:39:06<8:47:10,  8.67s/it] 29%|██▉       | 1503/5150 [3:39:15<8:51:44,  8.75s/it] 29%|██▉       | 1504/5150 [3:39:24<8:49:26,  8.71s/it] 29%|██▉       | 1505/5150 [3:39:32<8:47:46,  8.69s/it] 29%|██▉       | 1506/5150 [3:39:41<8:46:33,  8.67s/it] 29%|██▉       | 1507/5150 [3:39:50<8:45:35,  8.66s/it] 29%|██▉       | 1508/5150 [3:39:59<8:50:10,  8.73s/it] 29%|██▉       | 1509/5150 [3:40:07<8:48:08,  8.70s/it] 29%|██▉       | 1510/5150 [3:40:16<8:46:46,  8.68s/it]                                                       {'loss': '0.0003093', 'grad_norm': '0.02919', 'learning_rate': '0.0001781', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '157.3', 'tokens/total': 24739840, 'tokens/trainable': 7830596, 'epoch': '1.465'}
+ 29%|██▉       | 1510/5150 [3:40:16<8:46:46,  8.68s/it] 29%|██▉       | 1511/5150 [3:40:25<8:45:38,  8.67s/it] 29%|██▉       | 1512/5150 [3:40:33<8:44:44,  8.65s/it] 29%|██▉       | 1513/5150 [3:40:42<8:49:47,  8.74s/it] 29%|██▉       | 1514/5150 [3:40:51<8:47:44,  8.71s/it] 29%|██▉       | 1515/5150 [3:40:59<8:46:14,  8.69s/it] 29%|██▉       | 1516/5150 [3:41:08<8:45:04,  8.67s/it] 29%|██▉       | 1517/5150 [3:41:17<8:49:23,  8.74s/it] 29%|██▉       | 1518/5150 [3:41:26<8:47:07,  8.71s/it] 29%|██▉       | 1519/5150 [3:41:34<8:45:34,  8.68s/it] 30%|██▉       | 1520/5150 [3:41:43<8:44:27,  8.67s/it]                                                       {'loss': '0.0002717', 'grad_norm': '0.04878', 'learning_rate': '0.0001777', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '147.8', 'tokens/total': 24903680, 'tokens/trainable': 7881925, 'epoch': '1.474'}
+ 30%|██▉       | 1520/5150 [3:41:43<8:44:27,  8.67s/it] 30%|██▉       | 1521/5150 [3:41:51<8:44:00,  8.66s/it] 30%|██▉       | 1522/5150 [3:42:00<8:49:04,  8.75s/it] 30%|██▉       | 1523/5150 [3:42:09<8:47:01,  8.72s/it] 30%|██▉       | 1524/5150 [3:42:18<8:45:28,  8.70s/it] 30%|██▉       | 1525/5150 [3:42:26<8:44:16,  8.68s/it] 30%|██▉       | 1526/5150 [3:42:35<8:48:59,  8.76s/it] 30%|██▉       | 1527/5150 [3:42:44<8:46:39,  8.72s/it] 30%|██▉       | 1528/5150 [3:42:53<8:45:06,  8.70s/it] 30%|██▉       | 1529/5150 [3:43:01<8:44:28,  8.69s/it] 30%|██▉       | 1530/5150 [3:43:10<8:49:27,  8.78s/it]                                                       {'loss': '0.0003095', 'grad_norm': '0.016', 'learning_rate': '0.0001773', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '139.5', 'tokens/total': 25067520, 'tokens/trainable': 7934025, 'epoch': '1.484'}
+ 30%|██▉       | 1530/5150 [3:43:10<8:49:27,  8.78s/it] 30%|██▉       | 1531/5150 [3:43:19<8:47:31,  8.75s/it] 30%|██▉       | 1532/5150 [3:43:28<8:45:58,  8.72s/it] 30%|██▉       | 1533/5150 [3:43:36<8:45:02,  8.71s/it] 30%|██▉       | 1534/5150 [3:43:45<8:44:16,  8.70s/it] 30%|██▉       | 1535/5150 [3:43:54<8:48:59,  8.78s/it] 30%|██▉       | 1536/5150 [3:44:03<8:46:52,  8.75s/it] 30%|██▉       | 1537/5150 [3:44:11<8:45:31,  8.73s/it] 30%|██▉       | 1538/5150 [3:44:20<8:44:36,  8.71s/it] 30%|██▉       | 1539/5150 [3:44:29<8:49:17,  8.79s/it] 30%|██▉       | 1540/5150 [3:44:38<8:47:02,  8.76s/it]                                                       {'loss': '0.0001949', 'grad_norm': '0.003129', 'learning_rate': '0.0001769', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '145.7', 'tokens/total': 25231360, 'tokens/trainable': 7986432, 'epoch': '1.494'}
+ 30%|██▉       | 1540/5150 [3:44:38<8:47:02,  8.76s/it] 30%|██▉       | 1541/5150 [3:44:46<8:44:48,  8.73s/it] 30%|██▉       | 1542/5150 [3:44:55<8:43:09,  8.70s/it] 30%|██▉       | 1543/5150 [3:45:04<8:41:53,  8.68s/it] 30%|██▉       | 1544/5150 [3:45:12<8:46:16,  8.76s/it] 30%|███       | 1545/5150 [3:45:21<8:43:54,  8.72s/it][2026-03-05 07:18:01,722] [INFO] [axolotl.core.trainers.base.evaluate:400] [PID:1482537] Running evaluation step...
+[2026-03-05 07:18:03,011] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.5653491020202637
+[2026-03-05 07:18:03,597] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.586045503616333
+[2026-03-05 07:18:04,194] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.5962412357330322
+[2026-03-05 07:18:04,808] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.6141946315765381
+[2026-03-05 07:18:04,809] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:1482537] gather_len_batches: [17]
+
+  0%|          | 0/17 [00:00<?, ?it/s][A
+ 12%|█▏        | 2/17 [00:00<00:04,  3.26it/s][A
+ 18%|█▊        | 3/17 [00:01<00:06,  2.29it/s][A
+ 24%|██▎       | 4/17 [00:01<00:06,  1.98it/s][A
+ 29%|██▉       | 5/17 [00:02<00:08,  1.49it/s][A
+ 35%|███▌      | 6/17 [00:03<00:07,  1.54it/s][A
+ 41%|████      | 7/17 [00:04<00:06,  1.57it/s][A
+ 47%|████▋     | 8/17 [00:04<00:05,  1.58it/s][A
+ 53%|█████▎    | 9/17 [00:05<00:05,  1.56it/s][A
+ 59%|█████▉    | 10/17 [00:05<00:04,  1.58it/s][A
+ 65%|██████▍   | 11/17 [00:06<00:03,  1.59it/s][A
+ 71%|███████   | 12/17 [00:07<00:03,  1.60it/s][A
+ 76%|███████▋  | 13/17 [00:07<00:02,  1.54it/s][A
+ 82%|████████▏ | 14/17 [00:08<00:01,  1.56it/s][A
+ 88%|████████▊ | 15/17 [00:09<00:01,  1.58it/s][A
+ 94%|█████████▍| 16/17 [00:09<00:00,  1.59it/s][ATraceback (most recent call last):
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 300, in _run_finalizers
+    finalizer()
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 224, in __call__
+    res = self._callback(*self._args, **self._kwargs)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 133, in _remove_temp_dir
+    rmtree(tempdir)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 725, in rmtree
+    _rmtree_safe_fd(fd, path, onerror)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 681, in _rmtree_safe_fd
+    onerror(os.unlink, fullname, sys.exc_info())
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 679, in _rmtree_safe_fd
+    os.unlink(entry.name, dir_fd=topfd)
+OSError: [Errno 16] Device or resource busy: '.nfs000000000008604c000060d2'
+
+100%|██████████| 17/17 [00:10<00:00,  1.50it/s][A                                                       
+                                               [A{'eval_loss': '0.0002977', 'eval_runtime': '11.98', 'eval_samples_per_second': '16.7', 'eval_steps_per_second': '8.35', 'eval_ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'epoch': '1.499', 'tokens/train_per_sec_per_gpu': '157.9'}
+ 30%|███       | 1545/5150 [3:45:36<8:43:54,  8.72s/it]
+100%|██████████| 17/17 [00:10<00:00,  1.50it/s][A
+                                               [A 30%|███       | 1546/5150 [3:45:45<13:17:28, 13.28s/it] 30%|███       | 1547/5150 [3:45:54<11:53:28, 11.88s/it] 30%|███       | 1548/5150 [3:46:02<10:54:47, 10.91s/it] 30%|███       | 1549/5150 [3:46:11<10:13:37, 10.22s/it] 30%|███       | 1550/5150 [3:46:20<9:50:50,  9.85s/it]                                                        {'loss': '0.0002794', 'grad_norm': '0.03413', 'learning_rate': '0.0001764', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '140.2', 'tokens/total': 25395200, 'tokens/trainable': 8038336, 'epoch': '1.503'}
+ 30%|███       | 1550/5150 [3:46:20<9:50:50,  9.85s/it] 30%|███       | 1551/5150 [3:46:28<9:28:55,  9.48s/it] 30%|███       | 1552/5150 [3:46:37<9:13:33,  9.23s/it] 30%|███       | 1553/5150 [3:46:46<9:02:40,  9.05s/it] 30%|███       | 1554/5150 [3:46:55<9:00:13,  9.01s/it] 30%|███       | 1555/5150 [3:47:03<8:53:10,  8.90s/it] 30%|███       | 1556/5150 [3:47:12<8:47:59,  8.81s/it] 30%|███       | 1557/5150 [3:47:21<8:44:27,  8.76s/it] 30%|███       | 1558/5150 [3:47:29<8:42:04,  8.72s/it] 30%|███       | 1559/5150 [3:47:38<8:45:54,  8.79s/it] 30%|███       | 1560/5150 [3:47:47<8:43:01,  8.74s/it]                                                       {'loss': '0.0003009', 'grad_norm': '0.009924', 'learning_rate': '0.000176', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '158.3', 'tokens/total': 25559040, 'tokens/trainable': 8090225, 'epoch': '1.513'}
+ 30%|███       | 1560/5150 [3:47:47<8:43:01,  8.74s/it] 30%|███       | 1561/5150 [3:47:55<8:40:55,  8.71s/it] 30%|███       | 1562/5150 [3:48:04<8:39:23,  8.69s/it] 30%|███       | 1563/5150 [3:48:13<8:43:47,  8.76s/it] 30%|███       | 1564/5150 [3:48:22<8:41:23,  8.72s/it] 30%|███       | 1565/5150 [3:48:30<8:39:32,  8.70s/it] 30%|███       | 1566/5150 [3:48:39<8:38:16,  8.68s/it] 30%|███       | 1567/5150 [3:48:47<8:37:22,  8.66s/it] 30%|███       | 1568/5150 [3:48:56<8:41:50,  8.74s/it] 30%|███       | 1569/5150 [3:49:05<8:39:40,  8.71s/it] 30%|███       | 1570/5150 [3:49:14<8:38:11,  8.68s/it]                                                       {'loss': '0.0002604', 'grad_norm': '0.03178', 'learning_rate': '0.0001755', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '145.2', 'tokens/total': 25722880, 'tokens/trainable': 8142119, 'epoch': '1.523'}
+ 30%|███       | 1570/5150 [3:49:14<8:38:11,  8.68s/it] 31%|███       | 1571/5150 [3:49:22<8:37:02,  8.67s/it] 31%|███       | 1572/5150 [3:49:31<8:41:30,  8.75s/it] 31%|███       | 1573/5150 [3:49:40<8:39:21,  8.71s/it] 31%|███       | 1574/5150 [3:49:48<8:37:52,  8.69s/it] 31%|███       | 1575/5150 [3:49:57<8:36:44,  8.67s/it] 31%|███       | 1576/5150 [3:50:06<8:35:46,  8.66s/it] 31%|███       | 1577/5150 [3:50:15<8:40:13,  8.74s/it] 31%|███       | 1578/5150 [3:50:23<8:37:59,  8.70s/it] 31%|███       | 1579/5150 [3:50:32<8:36:30,  8.68s/it] 31%|███       | 1580/5150 [3:50:41<8:35:36,  8.67s/it]                                                       {'loss': '0.0001354', 'grad_norm': '0.01812', 'learning_rate': '0.0001751', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '161.2', 'tokens/total': 25886720, 'tokens/trainable': 8193720, 'epoch': '1.532'}
+ 31%|███       | 1580/5150 [3:50:41<8:35:36,  8.67s/it] 31%|███       | 1581/5150 [3:50:49<8:39:53,  8.74s/it] 31%|███       | 1582/5150 [3:50:58<8:37:38,  8.70s/it] 31%|███       | 1583/5150 [3:51:07<8:36:03,  8.68s/it] 31%|███       | 1584/5150 [3:51:15<8:35:00,  8.67s/it] 31%|███       | 1585/5150 [3:51:24<8:34:06,  8.65s/it] 31%|███       | 1586/5150 [3:51:33<8:39:16,  8.74s/it] 31%|███       | 1587/5150 [3:51:42<8:36:59,  8.71s/it] 31%|███       | 1588/5150 [3:51:50<8:35:24,  8.68s/it] 31%|███       | 1589/5150 [3:51:59<8:34:24,  8.67s/it] 31%|███       | 1590/5150 [3:52:08<8:39:05,  8.75s/it]                                                       {'loss': '0.0002823', 'grad_norm': '0.003957', 'learning_rate': '0.0001747', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '149.3', 'tokens/total': 26050560, 'tokens/trainable': 8245337, 'epoch': '1.542'}
+ 31%|███       | 1590/5150 [3:52:08<8:39:05,  8.75s/it] 31%|███       | 1591/5150 [3:52:16<8:36:46,  8.71s/it] 31%|███       | 1592/5150 [3:52:25<8:35:07,  8.69s/it] 31%|███       | 1593/5150 [3:52:34<8:33:55,  8.67s/it] 31%|███       | 1594/5150 [3:52:42<8:33:06,  8.66s/it] 31%|███       | 1595/5150 [3:52:51<8:37:58,  8.74s/it] 31%|███       | 1596/5150 [3:53:00<8:36:04,  8.71s/it] 31%|███       | 1597/5150 [3:53:08<8:34:29,  8.69s/it] 31%|███       | 1598/5150 [3:53:17<8:33:24,  8.67s/it] 31%|███       | 1599/5150 [3:53:26<8:37:24,  8.74s/it] 31%|███       | 1600/5150 [3:53:35<8:35:10,  8.71s/it]                                                       {'loss': '0.0004968', 'grad_norm': '0.009768', 'learning_rate': '0.0001742', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '166.8', 'tokens/total': 26214400, 'tokens/trainable': 8297549, 'epoch': '1.552'}
+ 31%|███       | 1600/5150 [3:53:35<8:35:10,  8.71s/it] 31%|███       | 1601/5150 [3:53:43<8:33:40,  8.68s/it] 31%|███       | 1602/5150 [3:53:52<8:32:37,  8.67s/it] 31%|███       | 1603/5150 [3:54:01<8:31:42,  8.66s/it] 31%|███       | 1604/5150 [3:54:09<8:36:18,  8.74s/it] 31%|███       | 1605/5150 [3:54:18<8:34:15,  8.70s/it] 31%|███       | 1606/5150 [3:54:27<8:32:41,  8.68s/it] 31%|███       | 1607/5150 [3:54:35<8:31:41,  8.67s/it] 31%|███       | 1608/5150 [3:54:44<8:36:00,  8.74s/it] 31%|███       | 1609/5150 [3:54:53<8:33:47,  8.71s/it] 31%|███▏      | 1610/5150 [3:55:01<8:32:02,  8.68s/it]                                                       {'loss': '0.0004428', 'grad_norm': '0.003164', 'learning_rate': '0.0001737', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '147.7', 'tokens/total': 26378240, 'tokens/trainable': 8349198, 'epoch': '1.562'}
+ 31%|███▏      | 1610/5150 [3:55:01<8:32:02,  8.68s/it] 31%|███▏      | 1611/5150 [3:55:10<8:30:52,  8.66s/it] 31%|███▏      | 1612/5150 [3:55:19<8:30:07,  8.65s/it] 31%|███▏      | 1613/5150 [3:55:28<8:35:00,  8.74s/it] 31%|███▏      | 1614/5150 [3:55:36<8:32:56,  8.70s/it] 31%|███▏      | 1615/5150 [3:55:45<8:31:24,  8.68s/it] 31%|███▏      | 1616/5150 [3:55:54<8:30:14,  8.66s/it] 31%|███▏      | 1617/5150 [3:56:02<8:34:38,  8.74s/it] 31%|███▏      | 1618/5150 [3:56:11<8:32:25,  8.70s/it] 31%|███▏      | 1619/5150 [3:56:20<8:30:56,  8.68s/it] 31%|███▏      | 1620/5150 [3:56:28<8:29:41,  8.66s/it]                                                       {'loss': '0.0003925', 'grad_norm': '0.06621', 'learning_rate': '0.0001733', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '150.5', 'tokens/total': 26542080, 'tokens/trainable': 8401329, 'epoch': '1.571'}
+ 31%|███▏      | 1620/5150 [3:56:28<8:29:41,  8.66s/it] 31%|███▏      | 1621/5150 [3:56:37<8:28:47,  8.65s/it] 31%|███▏      | 1622/5150 [3:56:46<8:33:37,  8.74s/it] 32%|███▏      | 1623/5150 [3:56:55<8:31:29,  8.70s/it] 32%|███▏      | 1624/5150 [3:57:03<8:30:05,  8.68s/it] 32%|███▏      | 1625/5150 [3:57:12<8:28:52,  8.66s/it] 32%|███▏      | 1626/5150 [3:57:21<8:33:13,  8.74s/it] 32%|███▏      | 1627/5150 [3:57:29<8:31:08,  8.71s/it] 32%|███▏      | 1628/5150 [3:57:38<8:29:29,  8.68s/it] 32%|███▏      | 1629/5150 [3:57:47<8:28:22,  8.66s/it] 32%|███▏      | 1630/5150 [3:57:55<8:27:36,  8.65s/it]                                                       {'loss': '0.0005287', 'grad_norm': '0.01161', 'learning_rate': '0.0001728', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '152.2', 'tokens/total': 26705920, 'tokens/trainable': 8452774, 'epoch': '1.581'}
+ 32%|███▏      | 1630/5150 [3:57:55<8:27:36,  8.65s/it] 32%|███▏      | 1631/5150 [3:58:04<8:32:10,  8.73s/it] 32%|███▏      | 1632/5150 [3:58:13<8:30:04,  8.70s/it] 32%|███▏      | 1633/5150 [3:58:21<8:28:34,  8.68s/it] 32%|███▏      | 1634/5150 [3:58:30<8:27:34,  8.66s/it] 32%|███▏      | 1635/5150 [3:58:39<8:31:45,  8.74s/it] 32%|███▏      | 1636/5150 [3:58:48<8:29:43,  8.70s/it] 32%|███▏      | 1637/5150 [3:58:56<8:28:13,  8.68s/it] 32%|███▏      | 1638/5150 [3:59:05<8:27:12,  8.67s/it] 32%|███▏      | 1639/5150 [3:59:13<8:26:18,  8.65s/it] 32%|███▏      | 1640/5150 [3:59:22<8:31:12,  8.74s/it]                                                       {'loss': '0.0004685', 'grad_norm': '0.007566', 'learning_rate': '0.0001724', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '138.3', 'tokens/total': 26869760, 'tokens/trainable': 8504439, 'epoch': '1.591'}
+ 32%|███▏      | 1640/5150 [3:59:22<8:31:12,  8.74s/it] 32%|███▏      | 1641/5150 [3:59:31<8:29:05,  8.70s/it] 32%|███▏      | 1642/5150 [3:59:40<8:27:31,  8.68s/it] 32%|███▏      | 1643/5150 [3:59:48<8:26:30,  8.67s/it] 32%|███▏      | 1644/5150 [3:59:57<8:31:08,  8.75s/it] 32%|███▏      | 1645/5150 [4:00:06<8:28:49,  8.71s/it] 32%|███▏      | 1646/5150 [4:00:14<8:27:22,  8.69s/it] 32%|███▏      | 1647/5150 [4:00:23<8:26:09,  8.67s/it] 32%|███▏      | 1648/5150 [4:00:32<8:25:13,  8.66s/it] 32%|███▏      | 1649/5150 [4:00:41<8:29:37,  8.73s/it] 32%|███▏      | 1650/5150 [4:00:49<8:27:40,  8.70s/it]                                                       {'loss': '0.0001868', 'grad_norm': '0.01271', 'learning_rate': '0.0001719', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '151.3', 'tokens/total': 27033600, 'tokens/trainable': 8556446, 'epoch': '1.6'}
+ 32%|███▏      | 1650/5150 [4:00:49<8:27:40,  8.70s/it] 32%|███▏      | 1651/5150 [4:00:58<8:26:20,  8.68s/it] 32%|███▏      | 1652/5150 [4:01:06<8:25:10,  8.67s/it] 32%|███▏      | 1653/5150 [4:01:15<8:29:39,  8.74s/it] 32%|███▏      | 1654/5150 [4:01:24<8:27:29,  8.71s/it] 32%|███▏      | 1655/5150 [4:01:33<8:25:57,  8.69s/it] 32%|███▏      | 1656/5150 [4:01:41<8:24:49,  8.67s/it] 32%|███▏      | 1657/5150 [4:01:50<8:24:03,  8.66s/it] 32%|███▏      | 1658/5150 [4:01:59<8:28:32,  8.74s/it] 32%|███▏      | 1659/5150 [4:02:07<8:26:19,  8.70s/it] 32%|███▏      | 1660/5150 [4:02:16<8:24:54,  8.68s/it]                                                       {'loss': '0.0002177', 'grad_norm': '0.01506', 'learning_rate': '0.0001714', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '156', 'tokens/total': 27197440, 'tokens/trainable': 8608605, 'epoch': '1.61'}
+ 32%|███▏      | 1660/5150 [4:02:16<8:24:54,  8.68s/it] 32%|███▏      | 1661/5150 [4:02:25<8:23:53,  8.67s/it] 32%|███▏      | 1662/5150 [4:02:34<8:28:04,  8.74s/it] 32%|███▏      | 1663/5150 [4:02:42<8:26:01,  8.71s/it] 32%|███▏      | 1664/5150 [4:02:51<8:24:29,  8.68s/it] 32%|███▏      | 1665/5150 [4:03:00<8:23:27,  8.67s/it] 32%|███▏      | 1666/5150 [4:03:08<8:22:44,  8.66s/it] 32%|███▏      | 1667/5150 [4:03:17<8:27:31,  8.74s/it] 32%|███▏      | 1668/5150 [4:03:26<8:25:14,  8.71s/it] 32%|███▏      | 1669/5150 [4:03:34<8:23:38,  8.68s/it] 32%|███▏      | 1670/5150 [4:03:43<8:22:37,  8.67s/it]                                                       {'loss': '0.0003599', 'grad_norm': '0.02209', 'learning_rate': '0.0001709', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '156.9', 'tokens/total': 27361280, 'tokens/trainable': 8660175, 'epoch': '1.62'}
+ 32%|███▏      | 1670/5150 [4:03:43<8:22:37,  8.67s/it] 32%|███▏      | 1671/5150 [4:03:52<8:26:56,  8.74s/it] 32%|███▏      | 1672/5150 [4:04:01<8:24:46,  8.71s/it] 32%|███▏      | 1673/5150 [4:04:09<8:23:19,  8.69s/it] 33%|███▎      | 1674/5150 [4:04:18<8:22:09,  8.67s/it] 33%|███▎      | 1675/5150 [4:04:26<8:21:17,  8.66s/it] 33%|███▎      | 1676/5150 [4:04:35<8:25:43,  8.73s/it] 33%|███▎      | 1677/5150 [4:04:44<8:23:40,  8.70s/it] 33%|███▎      | 1678/5150 [4:04:53<8:22:12,  8.68s/it] 33%|███▎      | 1679/5150 [4:05:01<8:21:07,  8.66s/it] 33%|███▎      | 1680/5150 [4:05:10<8:25:27,  8.74s/it]                                                       {'loss': '0.0002935', 'grad_norm': '0.017', 'learning_rate': '0.0001705', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '157.3', 'tokens/total': 27525120, 'tokens/trainable': 8711859, 'epoch': '1.629'}
+ 33%|███▎      | 1680/5150 [4:05:10<8:25:27,  8.74s/it] 33%|███▎      | 1681/5150 [4:05:19<8:23:19,  8.71s/it] 33%|███▎      | 1682/5150 [4:05:27<8:21:50,  8.68s/it] 33%|███▎      | 1683/5150 [4:05:36<8:20:37,  8.66s/it] 33%|███▎      | 1684/5150 [4:05:45<8:19:48,  8.65s/it] 33%|███▎      | 1685/5150 [4:05:54<8:24:36,  8.74s/it] 33%|███▎      | 1686/5150 [4:06:02<8:22:26,  8.70s/it] 33%|███▎      | 1687/5150 [4:06:11<8:21:01,  8.68s/it] 33%|███▎      | 1688/5150 [4:06:19<8:19:51,  8.66s/it] 33%|███▎      | 1689/5150 [4:06:28<8:24:20,  8.74s/it] 33%|███▎      | 1690/5150 [4:06:37<8:22:05,  8.71s/it]                                                       {'loss': '0.000295', 'grad_norm': '0.03459', 'learning_rate': '0.00017', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '139.6', 'tokens/total': 27688960, 'tokens/trainable': 8763615, 'epoch': '1.639'}
+ 33%|███▎      | 1690/5150 [4:06:37<8:22:05,  8.71s/it] 33%|███▎      | 1691/5150 [4:06:46<8:20:31,  8.68s/it] 33%|███▎      | 1692/5150 [4:06:54<8:19:21,  8.66s/it] 33%|███▎      | 1693/5150 [4:07:03<8:18:31,  8.65s/it] 33%|███▎      | 1694/5150 [4:07:12<8:22:59,  8.73s/it] 33%|███▎      | 1695/5150 [4:07:20<8:21:02,  8.70s/it] 33%|███▎      | 1696/5150 [4:07:29<8:19:29,  8.68s/it] 33%|███▎      | 1697/5150 [4:07:38<8:18:24,  8.66s/it] 33%|███▎      | 1698/5150 [4:07:47<8:22:46,  8.74s/it] 33%|███▎      | 1699/5150 [4:07:55<8:20:38,  8.70s/it] 33%|███▎      | 1700/5150 [4:08:04<8:19:10,  8.68s/it]                                                       {'loss': '0.0002094', 'grad_norm': '0.003494', 'learning_rate': '0.0001695', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '150.1', 'tokens/total': 27852800, 'tokens/trainable': 8815434, 'epoch': '1.649'}
+ 33%|███▎      | 1700/5150 [4:08:04<8:19:10,  8.68s/it] 33%|███▎      | 1701/5150 [4:08:12<8:18:04,  8.66s/it] 33%|███▎      | 1702/5150 [4:08:21<8:17:13,  8.65s/it] 33%|███▎      | 1703/5150 [4:08:30<8:21:53,  8.74s/it] 33%|███▎      | 1704/5150 [4:08:39<8:19:48,  8.70s/it] 33%|███▎      | 1705/5150 [4:08:47<8:18:20,  8.68s/it] 33%|███▎      | 1706/5150 [4:08:56<8:17:14,  8.66s/it] 33%|███▎      | 1707/5150 [4:09:05<8:21:40,  8.74s/it] 33%|███▎      | 1708/5150 [4:09:13<8:19:28,  8.71s/it] 33%|███▎      | 1709/5150 [4:09:22<8:17:54,  8.68s/it] 33%|███▎      | 1710/5150 [4:09:31<8:16:48,  8.67s/it]                                                       {'loss': '0.0001293', 'grad_norm': '0.00408', 'learning_rate': '0.000169', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '150.3', 'tokens/total': 28016640, 'tokens/trainable': 8867464, 'epoch': '1.659'}
+ 33%|███▎      | 1710/5150 [4:09:31<8:16:48,  8.67s/it] 33%|███▎      | 1711/5150 [4:09:39<8:16:01,  8.65s/it] 33%|███▎      | 1712/5150 [4:09:48<8:20:29,  8.73s/it] 33%|███▎      | 1713/5150 [4:09:57<8:18:32,  8.70s/it] 33%|███▎      | 1714/5150 [4:10:05<8:17:09,  8.68s/it] 33%|███▎      | 1715/5150 [4:10:14<8:16:04,  8.67s/it] 33%|███▎      | 1716/5150 [4:10:23<8:20:18,  8.74s/it] 33%|███▎      | 1717/5150 [4:10:32<8:18:07,  8.71s/it] 33%|███▎      | 1718/5150 [4:10:40<8:16:31,  8.68s/it] 33%|███▎      | 1719/5150 [4:10:49<8:15:22,  8.66s/it] 33%|███▎      | 1720/5150 [4:10:58<8:14:29,  8.65s/it]                                                       {'loss': '9.407e-05', 'grad_norm': '0.001413', 'learning_rate': '0.0001685', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '145.7', 'tokens/total': 28180480, 'tokens/trainable': 8919125, 'epoch': '1.668'}
+ 33%|███▎      | 1720/5150 [4:10:58<8:14:29,  8.65s/it] 33%|███▎      | 1721/5150 [4:11:06<8:19:04,  8.73s/it] 33%|███▎      | 1722/5150 [4:11:15<8:17:04,  8.70s/it] 33%|███▎      | 1723/5150 [4:11:24<8:15:40,  8.68s/it] 33%|███▎      | 1724/5150 [4:11:32<8:14:35,  8.66s/it] 33%|███▎      | 1725/5150 [4:11:41<8:18:48,  8.74s/it] 34%|███▎      | 1726/5150 [4:11:50<8:16:39,  8.70s/it] 34%|███▎      | 1727/5150 [4:11:58<8:15:09,  8.68s/it] 34%|███▎      | 1728/5150 [4:12:07<8:14:05,  8.66s/it] 34%|███▎      | 1729/5150 [4:12:16<8:13:17,  8.65s/it] 34%|███▎      | 1730/5150 [4:12:25<8:17:39,  8.73s/it]                                                       {'loss': '0.0002474', 'grad_norm': '0.0129', 'learning_rate': '0.000168', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '139.4', 'tokens/total': 28344320, 'tokens/trainable': 8970813, 'epoch': '1.678'}
+ 34%|███▎      | 1730/5150 [4:12:25<8:17:39,  8.73s/it] 34%|███▎      | 1731/5150 [4:12:33<8:15:43,  8.70s/it] 34%|███▎      | 1732/5150 [4:12:42<8:14:16,  8.68s/it] 34%|███▎      | 1733/5150 [4:12:51<8:13:18,  8.66s/it] 34%|███▎      | 1734/5150 [4:12:59<8:17:39,  8.74s/it] 34%|███▎      | 1735/5150 [4:13:08<8:15:32,  8.71s/it] 34%|███▎      | 1736/5150 [4:13:17<8:13:58,  8.68s/it] 34%|███▎      | 1737/5150 [4:13:25<8:12:52,  8.66s/it] 34%|███▎      | 1738/5150 [4:13:34<8:12:04,  8.65s/it] 34%|███▍      | 1739/5150 [4:13:43<8:16:32,  8.73s/it] 34%|███▍      | 1740/5150 [4:13:52<8:14:39,  8.70s/it]                                                       {'loss': '9.643e-05', 'grad_norm': '0.005069', 'learning_rate': '0.0001675', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '150.8', 'tokens/total': 28508160, 'tokens/trainable': 9022315, 'epoch': '1.688'}
+ 34%|███▍      | 1740/5150 [4:13:52<8:14:39,  8.70s/it] 34%|███▍      | 1741/5150 [4:14:00<8:13:10,  8.68s/it] 34%|███▍      | 1742/5150 [4:14:09<8:12:12,  8.67s/it] 34%|███▍      | 1743/5150 [4:14:18<8:16:48,  8.75s/it] 34%|███▍      | 1744/5150 [4:14:26<8:14:39,  8.71s/it] 34%|███▍      | 1745/5150 [4:14:35<8:13:19,  8.69s/it] 34%|███▍      | 1746/5150 [4:14:44<8:12:07,  8.67s/it] 34%|███▍      | 1747/5150 [4:14:52<8:11:14,  8.66s/it] 34%|███▍      | 1748/5150 [4:15:01<8:15:36,  8.74s/it] 34%|███▍      | 1749/5150 [4:15:10<8:13:36,  8.71s/it] 34%|███▍      | 1750/5150 [4:15:18<8:12:03,  8.68s/it]                                                       {'loss': '0.0001097', 'grad_norm': '0.01138', 'learning_rate': '0.000167', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '154.5', 'tokens/total': 28672000, 'tokens/trainable': 9074358, 'epoch': '1.697'}
+ 34%|███▍      | 1750/5150 [4:15:18<8:12:03,  8.68s/it] 34%|███▍      | 1751/5150 [4:15:27<8:11:05,  8.67s/it] 34%|███▍      | 1752/5150 [4:15:36<8:10:12,  8.66s/it] 34%|███▍      | 1753/5150 [4:15:45<8:14:35,  8.74s/it] 34%|███▍      | 1754/5150 [4:15:53<8:12:38,  8.70s/it] 34%|███▍      | 1755/5150 [4:16:02<8:11:16,  8.68s/it] 34%|███▍      | 1756/5150 [4:16:10<8:10:11,  8.67s/it] 34%|███▍      | 1757/5150 [4:16:19<8:14:18,  8.74s/it] 34%|███▍      | 1758/5150 [4:16:28<8:12:10,  8.71s/it] 34%|███▍      | 1759/5150 [4:16:37<8:10:42,  8.68s/it] 34%|███▍      | 1760/5150 [4:16:45<8:09:37,  8.67s/it]                                                       {'loss': '5.73e-05', 'grad_norm': '0.0003597', 'learning_rate': '0.0001665', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '158', 'tokens/total': 28835840, 'tokens/trainable': 9126178, 'epoch': '1.707'}
+ 34%|███▍      | 1760/5150 [4:16:45<8:09:37,  8.67s/it] 34%|███▍      | 1761/5150 [4:16:54<8:08:50,  8.65s/it] 34%|███▍      | 1762/5150 [4:17:03<8:13:19,  8.74s/it] 34%|███▍      | 1763/5150 [4:17:11<8:11:13,  8.70s/it] 34%|███▍      | 1764/5150 [4:17:20<8:09:38,  8.68s/it] 34%|█���█▍      | 1765/5150 [4:17:29<8:08:42,  8.66s/it] 34%|███▍      | 1766/5150 [4:17:38<8:13:03,  8.74s/it] 34%|███▍      | 1767/5150 [4:17:46<8:10:51,  8.71s/it] 34%|███▍      | 1768/5150 [4:17:55<8:09:17,  8.68s/it] 34%|███▍      | 1769/5150 [4:18:04<8:08:16,  8.67s/it] 34%|███▍      | 1770/5150 [4:18:12<8:12:37,  8.74s/it]                                                       {'loss': '0.000471', 'grad_norm': '0.0004409', 'learning_rate': '0.000166', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '151.9', 'tokens/total': 28999680, 'tokens/trainable': 9177968, 'epoch': '1.717'}
+ 34%|███▍      | 1770/5150 [4:18:12<8:12:37,  8.74s/it] 34%|███▍      | 1771/5150 [4:18:21<8:10:37,  8.71s/it] 34%|███▍      | 1772/5150 [4:18:30<8:09:10,  8.69s/it] 34%|███▍      | 1773/5150 [4:18:38<8:08:05,  8.67s/it] 34%|███▍      | 1774/5150 [4:18:47<8:07:20,  8.66s/it] 34%|███▍      | 1775/5150 [4:18:56<8:11:37,  8.74s/it] 34%|███▍      | 1776/5150 [4:19:05<8:09:43,  8.71s/it] 35%|███▍      | 1777/5150 [4:19:13<8:08:21,  8.69s/it] 35%|███▍      | 1778/5150 [4:19:22<8:07:16,  8.67s/it] 35%|███▍      | 1779/5150 [4:19:31<8:11:29,  8.75s/it] 35%|███▍      | 1780/5150 [4:19:39<8:09:23,  8.71s/it]                                                       {'loss': '0.0002798', 'grad_norm': '0.0002131', 'learning_rate': '0.0001655', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '147.3', 'tokens/total': 29163520, 'tokens/trainable': 9230418, 'epoch': '1.726'}
+ 35%|███▍      | 1780/5150 [4:19:39<8:09:23,  8.71s/it] 35%|███▍      | 1781/5150 [4:19:48<8:07:55,  8.69s/it] 35%|███▍      | 1782/5150 [4:19:57<8:06:45,  8.67s/it] 35%|███▍      | 1783/5150 [4:20:05<8:05:59,  8.66s/it] 35%|███▍      | 1784/5150 [4:20:14<8:10:14,  8.74s/it] 35%|███▍      | 1785/5150 [4:20:23<8:08:17,  8.71s/it] 35%|███▍      | 1786/5150 [4:20:31<8:06:52,  8.68s/it] 35%|███▍      | 1787/5150 [4:20:40<8:05:43,  8.67s/it] 35%|███▍      | 1788/5150 [4:20:49<8:09:52,  8.74s/it] 35%|███▍      | 1789/5150 [4:20:58<8:07:47,  8.71s/it] 35%|███▍      | 1790/5150 [4:21:06<8:06:19,  8.68s/it]                                                       {'loss': '0.0002824', 'grad_norm': '0.01269', 'learning_rate': '0.000165', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '147', 'tokens/total': 29327360, 'tokens/trainable': 9282824, 'epoch': '1.736'}
+ 35%|███▍      | 1790/5150 [4:21:06<8:06:19,  8.68s/it] 35%|███▍      | 1791/5150 [4:21:15<8:05:24,  8.67s/it] 35%|███▍      | 1792/5150 [4:21:24<8:04:45,  8.66s/it] 35%|███▍      | 1793/5150 [4:21:32<8:08:59,  8.74s/it] 35%|███▍      | 1794/5150 [4:21:41<8:07:05,  8.71s/it] 35%|███▍      | 1795/5150 [4:21:50<8:05:31,  8.68s/it] 35%|███▍      | 1796/5150 [4:21:58<8:04:30,  8.67s/it] 35%|███▍      | 1797/5150 [4:22:07<8:08:27,  8.74s/it] 35%|███▍      | 1798/5150 [4:22:16<8:06:34,  8.71s/it] 35%|███▍      | 1799/5150 [4:22:25<8:05:03,  8.69s/it] 35%|███▍      | 1800/5150 [4:22:33<8:03:59,  8.67s/it]                                                       {'loss': '0.0001867', 'grad_norm': '0.02869', 'learning_rate': '0.0001645', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '140.7', 'tokens/total': 29491200, 'tokens/trainable': 9334163, 'epoch': '1.746'}
+ 35%|███▍      | 1800/5150 [4:22:33<8:03:59,  8.67s/it] 35%|███▍      | 1801/5150 [4:22:42<8:03:20,  8.66s/it] 35%|███▍      | 1802/5150 [4:22:51<8:07:34,  8.74s/it] 35%|███▌      | 1803/5150 [4:22:59<8:05:38,  8.71s/it] 35%|███▌      | 1804/5150 [4:23:08<8:04:10,  8.68s/it] 35%|███▌      | 1805/5150 [4:23:17<8:03:11,  8.67s/it] 35%|███▌      | 1806/5150 [4:23:26<8:07:22,  8.74s/it] 35%|███▌      | 1807/5150 [4:23:34<8:05:17,  8.71s/it] 35%|███▌      | 1808/5150 [4:23:43<8:03:44,  8.68s/it] 35%|███▌      | 1809/5150 [4:23:51<8:02:38,  8.67s/it] 35%|███▌      | 1810/5150 [4:24:00<8:01:52,  8.66s/it]                                                       {'loss': '0.000208', 'grad_norm': '0.009476', 'learning_rate': '0.0001639', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '147.1', 'tokens/total': 29655040, 'tokens/trainable': 9385778, 'epoch': '1.756'}
+ 35%|███▌      | 1810/5150 [4:24:00<8:01:52,  8.66s/it] 35%|███▌      | 1811/5150 [4:24:09<8:06:14,  8.74s/it] 35%|███▌      | 1812/5150 [4:24:18<8:04:21,  8.71s/it] 35%|███▌      | 1813/5150 [4:24:26<8:02:56,  8.68s/it] 35%|███▌      | 1814/5150 [4:24:35<8:01:52,  8.67s/it] 35%|███▌      | 1815/5150 [4:24:44<8:06:13,  8.75s/it] 35%|███▌      | 1816/5150 [4:24:52<8:04:05,  8.71s/it] 35%|███▌      | 1817/5150 [4:25:01<8:02:44,  8.69s/it] 35%|███▌      | 1818/5150 [4:25:10<8:01:39,  8.67s/it] 35%|███▌      | 1819/5150 [4:25:18<8:00:44,  8.66s/it] 35%|███▌      | 1820/5150 [4:25:27<8:04:51,  8.74s/it]                                                       {'loss': '0.0001725', 'grad_norm': '0.0004283', 'learning_rate': '0.0001634', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '135.1', 'tokens/total': 29818880, 'tokens/trainable': 9437560, 'epoch': '1.765'}
+ 35%|███▌      | 1820/5150 [4:25:27<8:04:51,  8.74s/it] 35%|███▌      | 1821/5150 [4:25:36<8:02:59,  8.71s/it] 35%|███▌      | 1822/5150 [4:25:44<8:01:31,  8.68s/it] 35%|███▌      | 1823/5150 [4:25:53<8:00:34,  8.67s/it] 35%|███▌      | 1824/5150 [4:26:02<8:04:45,  8.74s/it] 35%|███▌      | 1825/5150 [4:26:11<8:02:45,  8.71s/it] 35%|███▌      | 1826/5150 [4:26:19<8:01:19,  8.69s/it] 35%|███▌      | 1827/5150 [4:26:28<8:00:21,  8.67s/it] 35%|███▌      | 1828/5150 [4:26:37<7:59:32,  8.66s/it] 36%|███▌      | 1829/5150 [4:26:46<8:03:41,  8.74s/it] 36%|███▌      | 1830/5150 [4:26:54<8:01:46,  8.71s/it]                                                       {'loss': '0.0002249', 'grad_norm': '0.005789', 'learning_rate': '0.0001629', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '140.7', 'tokens/total': 29982720, 'tokens/trainable': 9490097, 'epoch': '1.775'}
+ 36%|███▌      | 1830/5150 [4:26:54<8:01:46,  8.71s/it] 36%|███▌      | 1831/5150 [4:27:03<8:00:28,  8.69s/it] 36%|███▌      | 1832/5150 [4:27:11<7:59:32,  8.67s/it] 36%|███▌      | 1833/5150 [4:27:20<8:03:24,  8.74s/it] 36%|███▌      | 1834/5150 [4:27:29<8:01:18,  8.71s/it] 36%|███▌      | 1835/5150 [4:27:38<7:59:53,  8.69s/it] 36%|███▌      | 1836/5150 [4:27:46<7:58:52,  8.67s/it] 36%|███▌      | 1837/5150 [4:27:55<7:58:00,  8.66s/it] 36%|███▌      | 1838/5150 [4:28:04<8:02:33,  8.74s/it] 36%|███▌      | 1839/5150 [4:28:12<8:00:33,  8.71s/it] 36%|███▌      | 1840/5150 [4:28:21<7:59:08,  8.69s/it]                                                       {'loss': '0.0002899', 'grad_norm': '0.001436', 'learning_rate': '0.0001624', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '154.4', 'tokens/total': 30146560, 'tokens/trainable': 9542336, 'epoch': '1.785'}
+ 36%|███▌      | 1840/5150 [4:28:21<7:59:08,  8.69s/it] 36%|███▌      | 1841/5150 [4:28:30<7:58:05,  8.67s/it] 36%|███▌      | 1842/5150 [4:28:39<8:02:03,  8.74s/it] 36%|███▌      | 1843/5150 [4:28:47<7:59:55,  8.71s/it] 36%|███▌      | 1844/5150 [4:28:56<7:58:26,  8.68s/it] 36%|███▌      | 1845/5150 [4:29:04<7:57:21,  8.67s/it] 36%|███▌      | 1846/5150 [4:29:13<7:56:31,  8.65s/it] 36%|███▌      | 1847/5150 [4:29:22<8:00:50,  8.73s/it] 36%|███▌      | 1848/5150 [4:29:31<7:58:49,  8.70s/it] 36%|███▌      | 1849/5150 [4:29:39<7:57:23,  8.68s/it] 36%|███▌      | 1850/5150 [4:29:48<7:56:23,  8.66s/it]                                                       {'loss': '0.0002399', 'grad_norm': '0.0003434', 'learning_rate': '0.0001618', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '147', 'tokens/total': 30310400, 'tokens/trainable': 9594410, 'epoch': '1.794'}
+ 36%|███▌      | 1850/5150 [4:29:48<7:56:23,  8.66s/it] 36%|███▌      | 1851/5150 [4:29:57<8:00:35,  8.74s/it] 36%|███▌      | 1852/5150 [4:30:05<7:58:30,  8.71s/it] 36%|███▌      | 1853/5150 [4:30:14<7:57:07,  8.68s/it] 36%|███▌      | 1854/5150 [4:30:23<7:56:02,  8.67s/it] 36%|███▌      | 1855/5150 [4:30:31<7:55:16,  8.65s/it] 36%|███▌      | 1856/5150 [4:30:40<7:59:41,  8.74s/it] 36%|███▌      | 1857/5150 [4:30:49<7:57:50,  8.71s/it] 36%|███▌      | 1858/5150 [4:30:58<7:56:26,  8.68s/it] 36%|███▌      | 1859/5150 [4:31:06<7:55:21,  8.67s/it] 36%|███▌      | 1860/5150 [4:31:15<7:59:22,  8.74s/it]                                                       {'loss': '0.0003663', 'grad_norm': '0.00727', 'learning_rate': '0.0001613', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '140', 'tokens/total': 30474240, 'tokens/trainable': 9646513, 'epoch': '1.804'}
+ 36%|███▌      | 1860/5150 [4:31:15<7:59:22,  8.74s/it] 36%|███▌      | 1861/5150 [4:31:24<7:57:33,  8.71s/it] 36%|███▌      | 1862/5150 [4:31:32<7:56:05,  8.69s/it] 36%|███▌      | 1863/5150 [4:31:41<7:55:07,  8.67s/it] 36%|███▌      | 1864/5150 [4:31:50<7:54:17,  8.66s/it] 36%|███▌      | 1865/5150 [4:31:59<7:58:49,  8.75s/it] 36%|███▌      | 1866/5150 [4:32:07<7:56:56,  8.71s/it] 36%|███▋      | 1867/5150 [4:32:16<7:55:32,  8.69s/it] 36%|███▋      | 1868/5150 [4:32:24<7:54:30,  8.67s/it] 36%|███▋      | 1869/5150 [4:32:33<7:58:50,  8.76s/it] 36%|███▋      | 1870/5150 [4:32:42<7:56:39,  8.72s/it]                                                       {'loss': '0.0002713', 'grad_norm': '0.00458', 'learning_rate': '0.0001608', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '158.2', 'tokens/total': 30638080, 'tokens/trainable': 9698675, 'epoch': '1.814'}
+ 36%|███▋      | 1870/5150 [4:32:42<7:56:39,  8.72s/it] 36%|███▋      | 1871/5150 [4:32:51<7:55:11,  8.70s/it] 36%|███▋      | 1872/5150 [4:32:59<7:54:07,  8.68s/it] 36%|███▋      | 1873/5150 [4:33:08<7:53:11,  8.66s/it] 36%|███▋      | 1874/5150 [4:33:17<7:57:36,  8.75s/it] 36%|███▋      | 1875/5150 [4:33:26<7:55:33,  8.71s/it] 36%|███▋      | 1876/5150 [4:33:34<7:54:09,  8.69s/it] 36%|███▋      | 1877/5150 [4:33:43<7:53:05,  8.67s/it] 36%|███▋      | 1878/5150 [4:33:52<7:57:16,  8.75s/it] 36%|███▋      | 1879/5150 [4:34:00<7:55:08,  8.72s/it] 37%|███▋      | 1880/5150 [4:34:09<7:53:40,  8.69s/it]                                                       {'loss': '8.914e-05', 'grad_norm': '0.0003869', 'learning_rate': '0.0001602', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '160.3', 'tokens/total': 30801920, 'tokens/trainable': 9750193, 'epoch': '1.823'}
+ 37%|███▋      | 1880/5150 [4:34:09<7:53:40,  8.69s/it] 37%|███▋      | 1881/5150 [4:34:18<7:52:30,  8.67s/it] 37%|███▋      | 1882/5150 [4:34:26<7:51:38,  8.66s/it] 37%|███▋      | 1883/5150 [4:34:35<7:55:59,  8.74s/it] 37%|███▋      | 1884/5150 [4:34:44<7:54:01,  8.71s/it] 37%|███▋      | 1885/5150 [4:34:52<7:52:35,  8.68s/it] 37%|███▋      | 1886/5150 [4:35:01<7:51:31,  8.67s/it] 37%|███▋      | 1887/5150 [4:35:10<7:55:45,  8.75s/it] 37%|███▋      | 1888/5150 [4:35:19<7:53:39,  8.71s/it] 37%|███▋      | 1889/5150 [4:35:27<7:52:09,  8.69s/it] 37%|███▋      | 1890/5150 [4:35:36<7:51:05,  8.67s/it]                                                       {'loss': '0.000176', 'grad_norm': '0.006821', 'learning_rate': '0.0001597', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '157.7', 'tokens/total': 30965760, 'tokens/trainable': 9802034, 'epoch': '1.833'}
+ 37%|███▋      | 1890/5150 [4:35:36<7:51:05,  8.67s/it] 37%|███▋      | 1891/5150 [4:35:45<7:50:19,  8.66s/it] 37%|███▋      | 1892/5150 [4:35:53<7:54:51,  8.75s/it] 37%|███▋      | 1893/5150 [4:36:02<7:52:55,  8.71s/it] 37%|███▋      | 1894/5150 [4:36:11<7:51:33,  8.69s/it] 37%|███▋      | 1895/5150 [4:36:19<7:50:27,  8.67s/it] 37%|███▋      | 1896/5150 [4:36:28<7:54:35,  8.75s/it] 37%|███▋      | 1897/5150 [4:36:37<7:52:24,  8.71s/it] 37%|███▋      | 1898/5150 [4:36:46<7:50:58,  8.69s/it] 37%|███▋      | 1899/5150 [4:36:54<7:49:52,  8.67s/it] 37%|███▋      | 1900/5150 [4:37:03<7:49:01,  8.66s/it]                                                       {'loss': '9.403e-05', 'grad_norm': '0.006167', 'learning_rate': '0.0001591', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '140.9', 'tokens/total': 31129600, 'tokens/trainable': 9853737, 'epoch': '1.843'}
+ 37%|███▋      | 1900/5150 [4:37:03<7:49:01,  8.66s/it] 37%|███▋      | 1901/5150 [4:37:12<7:53:19,  8.74s/it] 37%|███▋      | 1902/5150 [4:37:20<7:51:22,  8.71s/it] 37%|███▋      | 1903/5150 [4:37:29<7:49:52,  8.68s/it] 37%|███▋      | 1904/5150 [4:37:38<7:48:48,  8.67s/it] 37%|███▋      | 1905/5150 [4:37:47<7:52:47,  8.74s/it] 37%|███▋      | 1906/5150 [4:37:55<7:50:49,  8.71s/it] 37%|███▋      | 1907/5150 [4:38:04<7:49:20,  8.68s/it] 37%|███▋      | 1908/5150 [4:38:12<7:48:14,  8.67s/it] 37%|███▋      | 1909/5150 [4:38:21<7:47:23,  8.65s/it] 37%|███▋      | 1910/5150 [4:38:30<7:51:55,  8.74s/it]                                                       {'loss': '0.0001349', 'grad_norm': '0.004542', 'learning_rate': '0.0001586', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '136.4', 'tokens/total': 31293440, 'tokens/trainable': 9905418, 'epoch': '1.853'}
+ 37%|███▋      | 1910/5150 [4:38:30<7:51:55,  8.74s/it] 37%|███▋      | 1911/5150 [4:38:39<7:49:58,  8.71s/it] 37%|███▋      | 1912/5150 [4:38:47<7:48:35,  8.68s/it] 37%|███▋      | 1913/5150 [4:38:56<7:47:32,  8.67s/it] 37%|███▋      | 1914/5150 [4:39:05<7:51:45,  8.75s/it] 37%|███▋      | 1915/5150 [4:39:13<7:49:36,  8.71s/it] 37%|███▋      | 1916/5150 [4:39:22<7:48:09,  8.69s/it] 37%|███▋      | 1917/5150 [4:39:31<7:47:05,  8.67s/it] 37%|███▋      | 1918/5150 [4:39:39<7:46:39,  8.66s/it] 37%|███▋      | 1919/5150 [4:39:48<7:50:50,  8.74s/it] 37%|███▋      | 1920/5150 [4:39:57<7:48:59,  8.71s/it]                                                       {'loss': '0.0001196', 'grad_norm': '0.04073', 'learning_rate': '0.000158', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '152', 'tokens/total': 31457280, 'tokens/trainable': 9957661, 'epoch': '1.862'}
+ 37%|███▋      | 1920/5150 [4:39:57<7:48:59,  8.71s/it] 37%|███▋      | 1921/5150 [4:40:06<7:47:41,  8.69s/it] 37%|███▋      | 1922/5150 [4:40:14<7:47:02,  8.68s/it] 37%|███▋      | 1923/5150 [4:40:23<7:51:23,  8.76s/it] 37%|███▋      | 1924/5150 [4:40:32<7:50:15,  8.75s/it] 37%|███▋      | 1925/5150 [4:40:41<7:48:12,  8.71s/it] 37%|███▋      | 1926/5150 [4:40:49<7:46:43,  8.69s/it] 37%|███▋      | 1927/5150 [4:40:58<7:45:38,  8.67s/it] 37%|███▋      | 1928/5150 [4:41:07<7:49:48,  8.75s/it] 37%|███▋      | 1929/5150 [4:41:15<7:47:30,  8.71s/it] 37%|███▋      | 1930/5150 [4:41:24<7:45:53,  8.68s/it]                                                       {'loss': '0.0002316', 'grad_norm': '0.0004172', 'learning_rate': '0.0001575', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '146.9', 'tokens/total': 31621120, 'tokens/trainable': 10009140, 'epoch': '1.872'}
+ 37%|███▋      | 1930/5150 [4:41:24<7:45:53,  8.68s/it] 37%|███▋      | 1931/5150 [4:41:33<7:44:45,  8.66s/it] 38%|███▊      | 1932/5150 [4:41:41<7:48:37,  8.74s/it] 38%|███▊      | 1933/5150 [4:41:50<7:46:27,  8.70s/it] 38%|███▊      | 1934/5150 [4:41:59<7:44:57,  8.67s/it] 38%|███▊      | 1935/5150 [4:42:07<7:43:48,  8.66s/it] 38%|███▊      | 1936/5150 [4:42:16<7:43:01,  8.64s/it] 38%|███▊      | 1937/5150 [4:42:25<7:47:03,  8.72s/it] 38%|███▊      | 1938/5150 [4:42:33<7:45:16,  8.69s/it] 38%|███▊      | 1939/5150 [4:42:42<7:43:51,  8.67s/it] 38%|███▊      | 1940/5150 [4:42:51<7:42:51,  8.65s/it]                                                       {'loss': '0.0003079', 'grad_norm': '0.04115', 'learning_rate': '0.0001569', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '142.4', 'tokens/total': 31784960, 'tokens/trainable': 10060210, 'epoch': '1.882'}
+ 38%|███▊      | 1940/5150 [4:42:51<7:42:51,  8.65s/it] 38%|███▊      | 1941/5150 [4:43:00<7:47:02,  8.73s/it] 38%|███▊      | 1942/5150 [4:43:08<7:45:02,  8.70s/it] 38%|███▊      | 1943/5150 [4:43:17<7:43:34,  8.67s/it] 38%|███▊      | 1944/5150 [4:43:25<7:42:29,  8.66s/it] 38%|███▊      | 1945/5150 [4:43:34<7:41:42,  8.64s/it] 38%|███▊      | 1946/5150 [4:43:43<7:45:55,  8.73s/it] 38%|███▊      | 1947/5150 [4:43:52<7:43:55,  8.69s/it] 38%|███▊      | 1948/5150 [4:44:00<7:42:38,  8.67s/it] 38%|███▊      | 1949/5150 [4:44:09<7:41:39,  8.65s/it] 38%|███▊      | 1950/5150 [4:44:18<7:45:33,  8.73s/it]                                                       {'loss': '0.000293', 'grad_norm': '0.003481', 'learning_rate': '0.0001564', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '156.8', 'tokens/total': 31948800, 'tokens/trainable': 10112173, 'epoch': '1.891'}
+ 38%|███▊      | 1950/5150 [4:44:18<7:45:33,  8.73s/it] 38%|███▊      | 1951/5150 [4:44:26<7:43:39,  8.70s/it] 38%|███▊      | 1952/5150 [4:44:35<7:42:12,  8.67s/it] 38%|███▊      | 1953/5150 [4:44:44<7:41:11,  8.66s/it] 38%|███▊      | 1954/5150 [4:44:52<7:40:31,  8.65s/it] 38%|███▊      | 1955/5150 [4:45:01<7:44:44,  8.73s/it] 38%|███▊      | 1956/5150 [4:45:10<7:42:50,  8.69s/it] 38%|███▊      | 1957/5150 [4:45:18<7:41:22,  8.67s/it] 38%|███▊      | 1958/5150 [4:45:27<7:40:21,  8.65s/it] 38%|███▊      | 1959/5150 [4:45:36<7:44:20,  8.73s/it] 38%|███▊      | 1960/5150 [4:45:45<7:42:19,  8.70s/it]                                                       {'loss': '0.0005448', 'grad_norm': '0.0002163', 'learning_rate': '0.0001558', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '158.2', 'tokens/total': 32112640, 'tokens/trainable': 10163620, 'epoch': '1.901'}
+ 38%|███▊      | 1960/5150 [4:45:45<7:42:19,  8.70s/it] 38%|███▊      | 1961/5150 [4:45:53<7:40:58,  8.67s/it] 38%|███▊      | 1962/5150 [4:46:02<7:39:46,  8.65s/it] 38%|███▊      | 1963/5150 [4:46:10<7:39:04,  8.64s/it] 38%|███▊      | 1964/5150 [4:46:19<7:43:12,  8.72s/it] 38%|███▊      | 1965/5150 [4:46:28<7:41:20,  8.69s/it] 38%|███▊      | 1966/5150 [4:46:37<7:40:02,  8.67s/it] 38%|███▊      | 1967/5150 [4:46:45<7:39:03,  8.65s/it] 38%|███▊      | 1968/5150 [4:46:54<7:43:06,  8.73s/it] 38%|███▊      | 1969/5150 [4:47:03<7:41:04,  8.70s/it] 38%|███▊      | 1970/5150 [4:47:11<7:39:41,  8.67s/it]                                                       {'loss': '0.0001711', 'grad_norm': '0.003726', 'learning_rate': '0.0001552', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '160.8', 'tokens/total': 32276480, 'tokens/trainable': 10216150, 'epoch': '1.911'}
+ 38%|███▊      | 1970/5150 [4:47:11<7:39:41,  8.67s/it] 38%|███▊      | 1971/5150 [4:47:20<7:38:40,  8.66s/it] 38%|███▊      | 1972/5150 [4:47:29<7:37:52,  8.64s/it] 38%|███▊      | 1973/5150 [4:47:37<7:42:01,  8.73s/it] 38%|███▊      | 1974/5150 [4:47:46<7:40:08,  8.69s/it] 38%|███▊      | 1975/5150 [4:47:55<7:38:44,  8.67s/it] 38%|███▊      | 1976/5150 [4:48:03<7:37:45,  8.65s/it] 38%|███▊      | 1977/5150 [4:48:12<7:41:36,  8.73s/it] 38%|███▊      | 1978/5150 [4:48:21<7:39:43,  8.70s/it] 38%|███▊      | 1979/5150 [4:48:29<7:38:18,  8.67s/it] 38%|███▊      | 1980/5150 [4:48:38<7:37:17,  8.66s/it]                                                       {'loss': '0.0002093', 'grad_norm': '0.001529', 'learning_rate': '0.0001547', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '155.1', 'tokens/total': 32440320, 'tokens/trainable': 10267952, 'epoch': '1.92'}
+ 38%|███▊      | 1980/5150 [4:48:38<7:37:17,  8.66s/it] 38%|███▊      | 1981/5150 [4:48:47<7:36:35,  8.64s/it] 38%|███▊      | 1982/5150 [4:48:56<7:40:50,  8.73s/it] 39%|███▊      | 1983/5150 [4:49:04<7:38:55,  8.69s/it] 39%|███▊      | 1984/5150 [4:49:13<7:37:32,  8.67s/it] 39%|███▊      | 1985/5150 [4:49:21<7:36:32,  8.65s/it] 39%|███▊      | 1986/5150 [4:49:30<7:40:32,  8.73s/it] 39%|███▊      | 1987/5150 [4:49:39<7:38:29,  8.70s/it] 39%|███▊      | 1988/5150 [4:49:48<7:36:59,  8.67s/it] 39%|███▊      | 1989/5150 [4:49:56<7:35:52,  8.65s/it] 39%|███▊      | 1990/5150 [4:50:05<7:35:07,  8.64s/it]                                                       {'loss': '0.0002278', 'grad_norm': '0.001275', 'learning_rate': '0.0001541', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '163', 'tokens/total': 32604160, 'tokens/trainable': 10319720, 'epoch': '1.93'}
+ 39%|███▊      | 1990/5150 [4:50:05<7:35:07,  8.64s/it] 39%|███▊      | 1991/5150 [4:50:14<7:39:17,  8.72s/it] 39%|███▊      | 1992/5150 [4:50:22<7:37:26,  8.69s/it] 39%|███▊      | 1993/5150 [4:50:31<7:36:08,  8.67s/it] 39%|███▊      | 1994/5150 [4:50:40<7:35:09,  8.65s/it] 39%|███▊      | 1995/5150 [4:50:48<7:39:00,  8.73s/it] 39%|███▉      | 1996/5150 [4:50:57<7:37:02,  8.69s/it] 39%|███▉      | 1997/5150 [4:51:06<7:35:44,  8.67s/it] 39%|███▉      | 1998/5150 [4:51:14<7:34:45,  8.66s/it] 39%|███▉      | 1999/5150 [4:51:23<7:33:57,  8.64s/it] 39%|███▉      | 2000/5150 [4:51:32<7:38:02,  8.72s/it]                                                       {'loss': '0.0002189', 'grad_norm': '0.002731', 'learning_rate': '0.0001535', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '144.7', 'tokens/total': 32768000, 'tokens/trainable': 10371794, 'epoch': '1.94'}
+ 39%|███▉      | 2000/5150 [4:51:32<7:38:02,  8.72s/it] 39%|███▉      | 2001/5150 [4:51:40<7:36:14,  8.69s/it] 39%|███▉      | 2002/5150 [4:51:49<7:34:52,  8.67s/it] 39%|███▉      | 2003/5150 [4:51:58<7:33:53,  8.65s/it] 39%|███▉      | 2004/5150 [4:52:07<7:37:51,  8.73s/it] 39%|███▉      | 2005/5150 [4:52:15<7:35:57,  8.70s/it] 39%|███▉      | 2006/5150 [4:52:24<7:34:34,  8.67s/it] 39%|███▉      | 2007/5150 [4:52:32<7:33:30,  8.66s/it] 39%|███▉      | 2008/5150 [4:52:41<7:32:43,  8.65s/it] 39%|███▉      | 2009/5150 [4:52:50<7:36:30,  8.72s/it] 39%|███▉      | 2010/5150 [4:52:59<7:34:47,  8.69s/it]                                                       {'loss': '4.235e-05', 'grad_norm': '0.001837', 'learning_rate': '0.000153', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '149.2', 'tokens/total': 32931840, 'tokens/trainable': 10423804, 'epoch': '1.95'}
+ 39%|███▉      | 2010/5150 [4:52:59<7:34:47,  8.69s/it] 39%|███▉      | 2011/5150 [4:53:07<7:33:36,  8.67s/it] 39%|███▉      | 2012/5150 [4:53:16<7:32:38,  8.65s/it] 39%|███▉      | 2013/5150 [4:53:25<7:36:23,  8.73s/it] 39%|███▉      | 2014/5150 [4:53:33<7:34:25,  8.69s/it] 39%|███▉      | 2015/5150 [4:53:42<7:33:04,  8.67s/it] 39%|███▉      | 2016/5150 [4:53:51<7:32:05,  8.66s/it] 39%|███▉      | 2017/5150 [4:53:59<7:31:24,  8.64s/it] 39%|███▉      | 2018/5150 [4:54:08<7:35:30,  8.73s/it] 39%|███▉      | 2019/5150 [4:54:17<7:33:38,  8.69s/it] 39%|███▉      | 2020/5150 [4:54:25<7:32:15,  8.67s/it]                                                       {'loss': '0.0002705', 'grad_norm': '0.001726', 'learning_rate': '0.0001524', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '146.4', 'tokens/total': 33095680, 'tokens/trainable': 10475310, 'epoch': '1.959'}
+ 39%|███▉      | 2020/5150 [4:54:25<7:32:15,  8.67s/it] 39%|███▉      | 2021/5150 [4:54:34<7:31:22,  8.66s/it] 39%|███▉      | 2022/5150 [4:54:43<7:35:11,  8.73s/it] 39%|███▉      | 2023/5150 [4:54:51<7:33:13,  8.70s/it] 39%|███▉      | 2024/5150 [4:55:00<7:31:52,  8.67s/it] 39%|███▉      | 2025/5150 [4:55:09<7:30:49,  8.66s/it] 39%|███▉      | 2026/5150 [4:55:17<7:30:05,  8.64s/it] 39%|███▉      | 2027/5150 [4:55:26<7:34:02,  8.72s/it] 39%|███▉      | 2028/5150 [4:55:35<7:32:07,  8.69s/it] 39%|███▉      | 2029/5150 [4:55:43<7:30:51,  8.67s/it] 39%|███▉      | 2030/5150 [4:55:52<7:29:53,  8.65s/it]                                                       {'loss': '7.622e-05', 'grad_norm': '0.009073', 'learning_rate': '0.0001518', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '154.2', 'tokens/total': 33259520, 'tokens/trainable': 10527696, 'epoch': '1.969'}
+ 39%|███▉      | 2030/5150 [4:55:52<7:29:53,  8.65s/it] 39%|███▉      | 2031/5150 [4:56:01<7:33:37,  8.73s/it] 39%|███▉      | 2032/5150 [4:56:10<7:31:43,  8.69s/it] 39%|███▉      | 2033/5150 [4:56:18<7:30:25,  8.67s/it] 39%|███▉      | 2034/5150 [4:56:27<7:29:23,  8.65s/it] 40%|███▉      | 2035/5150 [4:56:35<7:28:37,  8.64s/it] 40%|███▉      | 2036/5150 [4:56:44<7:32:23,  8.72s/it] 40%|███▉      | 2037/5150 [4:56:53<7:30:41,  8.69s/it] 40%|███▉      | 2038/5150 [4:57:02<7:29:22,  8.66s/it] 40%|███▉      | 2039/5150 [4:57:10<7:28:24,  8.65s/it] 40%|███▉      | 2040/5150 [4:57:19<7:32:04,  8.72s/it]                                                       {'loss': '7.045e-05', 'grad_norm': '0.01322', 'learning_rate': '0.0001512', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '141', 'tokens/total': 33423360, 'tokens/trainable': 10578961, 'epoch': '1.979'}
+ 40%|███▉      | 2040/5150 [4:57:19<7:32:04,  8.72s/it] 40%|███▉      | 2041/5150 [4:57:28<7:30:19,  8.69s/it] 40%|███▉      | 2042/5150 [4:57:36<7:29:01,  8.67s/it] 40%|███▉      | 2043/5150 [4:57:45<7:28:06,  8.65s/it] 40%|███▉      | 2044/5150 [4:57:54<7:27:21,  8.64s/it] 40%|███▉      | 2045/5150 [4:58:02<7:31:28,  8.72s/it] 40%|███▉      | 2046/5150 [4:58:11<7:29:35,  8.69s/it] 40%|███▉      | 2047/5150 [4:58:20<7:28:14,  8.67s/it] 40%|███▉      | 2048/5150 [4:58:28<7:27:19,  8.65s/it] 40%|███▉      | 2049/5150 [4:58:37<7:31:12,  8.73s/it] 40%|███▉      | 2050/5150 [4:58:46<7:29:16,  8.70s/it]                                                       {'loss': '5.899e-05', 'grad_norm': '0.01256', 'learning_rate': '0.0001506', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '153.2', 'tokens/total': 33587200, 'tokens/trainable': 10631233, 'epoch': '1.988'}
+ 40%|███▉      | 2050/5150 [4:58:46<7:29:16,  8.70s/it] 40%|███▉      | 2051/5150 [4:58:54<7:27:52,  8.67s/it] 40%|███▉      | 2052/5150 [4:59:03<7:26:51,  8.65s/it] 40%|███▉      | 2053/5150 [4:59:12<7:26:06,  8.64s/it] 40%|███▉      | 2054/5150 [4:59:21<7:29:44,  8.72s/it] 40%|███▉      | 2055/5150 [4:59:29<7:28:00,  8.69s/it] 40%|███▉      | 2056/5150 [4:59:38<7:26:46,  8.66s/it] 40%|███▉      | 2057/5150 [4:59:46<7:25:47,  8.65s/it] 40%|███▉      | 2058/5150 [4:59:55<7:29:39,  8.73s/it] 40%|███▉      | 2059/5150 [5:00:04<7:27:43,  8.69s/it] 40%|████      | 2060/5150 [5:00:13<7:26:24,  8.67s/it]                                                       {'loss': '9.038e-05', 'grad_norm': '0.000802', 'learning_rate': '0.0001501', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '146.1', 'tokens/total': 33751040, 'tokens/trainable': 10682364, 'epoch': '1.998'}
+ 40%|████      | 2060/5150 [5:00:13<7:26:24,  8.67s/it][2026-03-05 08:32:53,195] [INFO] [axolotl.core.trainers.base.evaluate:400] [PID:1482537] Running evaluation step...
+[2026-03-05 08:32:54,533] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.7881166934967041
+[2026-03-05 08:32:55,422] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.8886737823486328
+[2026-03-05 08:32:56,379] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.955829381942749
+[2026-03-05 08:32:57,324] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.9441416263580322
+[2026-03-05 08:32:57,324] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:1482537] gather_len_batches: [17]
+
+  0%|          | 0/17 [00:00<?, ?it/s][A
+ 12%|█▏        | 2/17 [00:00<00:04,  3.26it/s][A
+ 18%|█▊        | 3/17 [00:01<00:06,  2.29it/s][A
+ 24%|██▎       | 4/17 [00:01<00:06,  1.98it/s][A
+ 29%|██▉       | 5/17 [00:02<00:07,  1.63it/s][A
+ 35%|███▌      | 6/17 [00:03<00:06,  1.64it/s][A
+ 41%|████      | 7/17 [00:03<00:06,  1.64it/s][A
+ 47%|████▋     | 8/17 [00:04<00:05,  1.63it/s][A
+ 53%|█████▎    | 9/17 [00:05<00:05,  1.53it/s][A
+ 59%|█████▉    | 10/17 [00:05<00:04,  1.56it/s][A
+ 65%|██████▍   | 11/17 [00:06<00:03,  1.58it/s][A
+ 71%|███████   | 12/17 [00:07<00:03,  1.59it/s][A
+ 76%|███████▋  | 13/17 [00:07<00:02,  1.51it/s][A
+ 82%|████████▏ | 14/17 [00:08<00:01,  1.55it/s][A
+ 88%|████████▊ | 15/17 [00:09<00:01,  1.57it/s][A
+ 94%|█████████▍| 16/17 [00:09<00:00,  1.58it/s][ATraceback (most recent call last):
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 300, in _run_finalizers
+    finalizer()
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 224, in __call__
+    res = self._callback(*self._args, **self._kwargs)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 133, in _remove_temp_dir
+    rmtree(tempdir)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 725, in rmtree
+    _rmtree_safe_fd(fd, path, onerror)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 681, in _rmtree_safe_fd
+    onerror(os.unlink, fullname, sys.exc_info())
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 679, in _rmtree_safe_fd
+    os.unlink(entry.name, dir_fd=topfd)
+OSError: [Errno 16] Device or resource busy: '.nfs0000000000083e78000060d5'
+
+100%|██████████| 17/17 [00:10<00:00,  1.51it/s][A                                                       
+                                               [A{'eval_loss': '0.0001297', 'eval_runtime': '11.87', 'eval_samples_per_second': '16.85', 'eval_steps_per_second': '8.427', 'eval_ppl': '1', 'memory/max_active (GiB)': '14.2', 'memory/max_allocated (GiB)': '14.2', 'memory/device_reserved (GiB)': '18.85', 'epoch': '1.998', 'tokens/train_per_sec_per_gpu': '0'}
+ 40%|████      | 2060/5150 [5:00:29<7:26:24,  8.67s/it]
+100%|██████████| 17/17 [00:10<00:00,  1.51it/s][A
+                                               [A[2026-03-05 08:33:09,241] [INFO] [axolotl.core.trainers.base._save:721] [PID:1482537] Saving model checkpoint to /home/jiaruil5/math_rl/mix_teachers/r3lit_rl/mix_teachers/checkpoints/math_operations/primitive_atomic_balanced_sft_50k_t20260305/checkpoint-2060
+ 40%|████      | 2061/5150 [5:00:39<12:01:57, 14.02s/it]Traceback (most recent call last):
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 300, in _run_finalizers
+    finalizer()
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 224, in __call__
+    res = self._callback(*self._args, **self._kwargs)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 133, in _remove_temp_dir
+    rmtree(tempdir)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 725, in rmtree
+    _rmtree_safe_fd(fd, path, onerror)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 681, in _rmtree_safe_fd
+    onerror(os.unlink, fullname, sys.exc_info())
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 679, in _rmtree_safe_fd
+    os.unlink(entry.name, dir_fd=topfd)
+OSError: [Errno 16] Device or resource busy: '.nfs0000000000085660000060d6'
+ 40%|████      | 2062/5150 [5:00:48<10:39:28, 12.43s/it] 40%|████      | 2063/5150 [5:00:58<10:08:04, 11.82s/it] 40%|████      | 2064/5150 [5:01:07<9:18:20, 10.86s/it]  40%|████      | 2065/5150 [5:01:15<8:43:29, 10.18s/it] 40%|████      | 2066/5150 [5:01:24<8:19:07,  9.71s/it] 40%|████      | 2067/5150 [5:01:33<8:07:58,  9.50s/it] 40%|████      | 2068/5150 [5:01:42<7:54:13,  9.23s/it] 40%|████      | 2069/5150 [5:01:50<7:44:33,  9.05s/it] 40%|████      | 2070/5150 [5:01:59<7:37:45,  8.92s/it]                                                       {'loss': '5.443e-05', 'grad_norm': '0.001462', 'learning_rate': '0.0001495', 'ppl': '1', 'memory/max_active (GiB)': '16.73', 'memory/max_allocated (GiB)': '16.73', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '149.6', 'tokens/total': 33914880, 'tokens/trainable': 10734349, 'epoch': '2.008'}
+ 40%|████      | 2070/5150 [5:01:59<7:37:45,  8.92s/it] 40%|████      | 2071/5150 [5:02:08<7:37:48,  8.92s/it] 40%|████      | 2072/5150 [5:02:16<7:32:59,  8.83s/it] 40%|████      | 2073/5150 [5:02:25<7:29:31,  8.77s/it] 40%|████      | 2074/5150 [5:02:34<7:27:04,  8.72s/it] 40%|████      | 2075/5150 [5:02:42<7:25:17,  8.69s/it] 40%|████      | 2076/5150 [5:02:51<7:28:39,  8.76s/it] 40%|████      | 2077/5150 [5:03:00<7:26:21,  8.72s/it] 40%|████      | 2078/5150 [5:03:08<7:24:44,  8.69s/it] 40%|████      | 2079/5150 [5:03:17<7:23:35,  8.67s/it] 40%|████      | 2080/5150 [5:03:26<7:27:13,  8.74s/it]                                                       {'loss': '5.938e-05', 'grad_norm': '0.0005702', 'learning_rate': '0.0001489', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '135.3', 'tokens/total': 34078720, 'tokens/trainable': 10786577, 'epoch': '2.017'}
+ 40%|████      | 2080/5150 [5:03:26<7:27:13,  8.74s/it] 40%|████      | 2081/5150 [5:03:35<7:25:17,  8.71s/it] 40%|████      | 2082/5150 [5:03:43<7:23:48,  8.68s/it] 40%|████      | 2083/5150 [5:03:52<7:22:43,  8.66s/it] 40%|████      | 2084/5150 [5:04:00<7:21:53,  8.65s/it] 40%|████      | 2085/5150 [5:04:09<7:25:50,  8.73s/it] 41%|████      | 2086/5150 [5:04:18<7:24:02,  8.70s/it] 41%|████      | 2087/5150 [5:04:27<7:22:43,  8.67s/it] 41%|████      | 2088/5150 [5:04:35<7:21:44,  8.66s/it] 41%|████      | 2089/5150 [5:04:44<7:25:46,  8.74s/it] 41%|████      | 2090/5150 [5:04:53<7:23:51,  8.70s/it]                                                       {'loss': '2.038e-05', 'grad_norm': '0.0009258', 'learning_rate': '0.0001483', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '143.1', 'tokens/total': 34242560, 'tokens/trainable': 10838681, 'epoch': '2.027'}
+ 41%|████      | 2090/5150 [5:04:53<7:23:51,  8.70s/it] 41%|████      | 2091/5150 [5:05:01<7:22:29,  8.68s/it] 41%|████      | 2092/5150 [5:05:10<7:21:30,  8.66s/it] 41%|████      | 2093/5150 [5:05:19<7:20:44,  8.65s/it] 41%|████      | 2094/5150 [5:05:27<7:24:42,  8.73s/it] 41%|████      | 2095/5150 [5:05:36<7:22:53,  8.70s/it] 41%|████      | 2096/5150 [5:05:45<7:21:32,  8.67s/it] 41%|████      | 2097/5150 [5:05:53<7:20:36,  8.66s/it] 41%|████      | 2098/5150 [5:06:02<7:24:18,  8.73s/it] 41%|████      | 2099/5150 [5:06:11<7:22:23,  8.70s/it] 41%|████      | 2100/5150 [5:06:20<7:21:01,  8.68s/it]                                                       {'loss': '0.0001114', 'grad_norm': '0.002994', 'learning_rate': '0.0001477', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '152.3', 'tokens/total': 34406400, 'tokens/trainable': 10890246, 'epoch': '2.037'}
+ 41%|████      | 2100/5150 [5:06:20<7:21:01,  8.68s/it] 41%|████      | 2101/5150 [5:06:28<7:20:02,  8.66s/it] 41%|████      | 2102/5150 [5:06:37<7:19:19,  8.65s/it] 41%|████      | 2103/5150 [5:06:46<7:23:23,  8.73s/it] 41%|████      | 2104/5150 [5:06:54<7:21:31,  8.70s/it] 41%|████      | 2105/5150 [5:07:03<7:20:17,  8.68s/it] 41%|████      | 2106/5150 [5:07:12<7:19:17,  8.66s/it] 41%|████      | 2107/5150 [5:07:20<7:23:10,  8.74s/it] 41%|████      | 2108/5150 [5:07:29<7:21:18,  8.70s/it] 41%|████      | 2109/5150 [5:07:38<7:19:49,  8.68s/it] 41%|████      | 2110/5150 [5:07:46<7:18:50,  8.66s/it]                                                       {'loss': '5.928e-05', 'grad_norm': '0.0001266', 'learning_rate': '0.0001471', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '156.3', 'tokens/total': 34570240, 'tokens/trainable': 10941490, 'epoch': '2.047'}
+ 41%|████      | 2110/5150 [5:07:46<7:18:50,  8.66s/it] 41%|████      | 2111/5150 [5:07:55<7:18:04,  8.65s/it] 41%|████      | 2112/5150 [5:08:04<7:21:54,  8.73s/it] 41%|████      | 2113/5150 [5:08:12<7:20:09,  8.70s/it] 41%|████      | 2114/5150 [5:08:21<7:18:50,  8.67s/it] 41%|████      | 2115/5150 [5:08:30<7:17:49,  8.66s/it] 41%|████      | 2116/5150 [5:08:39<7:21:32,  8.73s/it] 41%|████      | 2117/5150 [5:08:47<7:19:42,  8.70s/it] 41%|████      | 2118/5150 [5:08:56<7:18:20,  8.67s/it] 41%|████      | 2119/5150 [5:09:04<7:17:24,  8.66s/it] 41%|████      | 2120/5150 [5:09:13<7:16:38,  8.65s/it]                                                       {'loss': '0.000168', 'grad_norm': '0.2071', 'learning_rate': '0.0001465', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '165.4', 'tokens/total': 34734080, 'tokens/trainable': 10993552, 'epoch': '2.056'}
+ 41%|████      | 2120/5150 [5:09:13<7:16:38,  8.65s/it] 41%|████      | 2121/5150 [5:09:22<7:20:44,  8.73s/it] 41%|████      | 2122/5150 [5:09:31<7:18:54,  8.70s/it] 41%|████      | 2123/5150 [5:09:39<7:17:35,  8.67s/it] 41%|████      | 2124/5150 [5:09:48<7:16:32,  8.66s/it] 41%|████▏     | 2125/5150 [5:09:57<7:20:27,  8.74s/it] 41%|████▏     | 2126/5150 [5:10:05<7:18:33,  8.70s/it] 41%|████▏     | 2127/5150 [5:10:14<7:17:09,  8.68s/it] 41%|████▏     | 2128/5150 [5:10:23<7:16:11,  8.66s/it] 41%|████▏     | 2129/5150 [5:10:31<7:15:28,  8.65s/it] 41%|████▏     | 2130/5150 [5:10:40<7:19:23,  8.73s/it]                                                       {'loss': '0.0004708', 'grad_norm': '0.01654', 'learning_rate': '0.0001459', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '150.7', 'tokens/total': 34897920, 'tokens/trainable': 11046161, 'epoch': '2.066'}
+ 41%|████▏     | 2130/5150 [5:10:40<7:19:23,  8.73s/it] 41%|████▏     | 2131/5150 [5:10:49<7:17:32,  8.70s/it] 41%|████▏     | 2132/5150 [5:10:57<7:16:11,  8.67s/it] 41%|████▏     | 2133/5150 [5:11:06<7:15:12,  8.66s/it] 41%|████▏     | 2134/5150 [5:11:15<7:14:30,  8.64s/it] 41%|████▏     | 2135/5150 [5:11:24<7:18:28,  8.73s/it] 41%|████▏     | 2136/5150 [5:11:32<7:16:40,  8.69s/it] 41%|████▏     | 2137/5150 [5:11:41<7:15:23,  8.67s/it] 42%|████▏     | 2138/5150 [5:11:49<7:14:32,  8.66s/it] 42%|████▏     | 2139/5150 [5:11:58<7:18:29,  8.74s/it] 42%|████▏     | 2140/5150 [5:12:07<7:16:32,  8.70s/it]                                                       {'loss': '0.002682', 'grad_norm': '0.6337', 'learning_rate': '0.0001453', 'ppl': '1.003', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '147.6', 'tokens/total': 35061760, 'tokens/trainable': 11097583, 'epoch': '2.076'}
+ 42%|████▏     | 2140/5150 [5:12:07<7:16:32,  8.70s/it] 42%|████▏     | 2141/5150 [5:12:16<7:15:16,  8.68s/it] 42%|████▏     | 2142/5150 [5:12:24<7:14:16,  8.66s/it] 42%|████▏     | 2143/5150 [5:12:33<7:18:00,  8.74s/it] 42%|████▏     | 2144/5150 [5:12:42<7:16:01,  8.70s/it] 42%|████▏     | 2145/5150 [5:12:50<7:14:40,  8.68s/it] 42%|████▏     | 2146/5150 [5:12:59<7:13:40,  8.66s/it] 42%|████▏     | 2147/5150 [5:13:08<7:12:51,  8.65s/it] 42%|████▏     | 2148/5150 [5:13:17<7:16:38,  8.73s/it] 42%|████▏     | 2149/5150 [5:13:25<7:14:54,  8.70s/it] 42%|████▏     | 2150/5150 [5:13:34<7:13:35,  8.67s/it]                                                       {'loss': '0.004691', 'grad_norm': '0.06616', 'learning_rate': '0.0001447', 'ppl': '1.005', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '143.4', 'tokens/total': 35225600, 'tokens/trainable': 11149940, 'epoch': '2.085'}
+ 42%|████▏     | 2150/5150 [5:13:34<7:13:35,  8.67s/it] 42%|████▏     | 2151/5150 [5:13:42<7:12:41,  8.66s/it] 42%|████▏     | 2152/5150 [5:13:51<7:16:31,  8.74s/it] 42%|████▏     | 2153/5150 [5:14:00<7:14:41,  8.70s/it] 42%|████▏     | 2154/5150 [5:14:09<7:13:13,  8.68s/it] 42%|████▏     | 2155/5150 [5:14:17<7:12:09,  8.66s/it] 42%|████▏     | 2156/5150 [5:14:26<7:11:25,  8.65s/it] 42%|████▏     | 2157/5150 [5:14:35<7:15:17,  8.73s/it] 42%|████▏     | 2158/5150 [5:14:43<7:13:33,  8.69s/it] 42%|████▏     | 2159/5150 [5:14:52<7:12:19,  8.67s/it] 42%|████▏     | 2160/5150 [5:15:01<7:11:23,  8.66s/it]                                                       {'loss': '0.001928', 'grad_norm': '0.03065', 'learning_rate': '0.0001441', 'ppl': '1.002', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '153.9', 'tokens/total': 35389440, 'tokens/trainable': 11202165, 'epoch': '2.095'}
+ 42%|████▏     | 2160/5150 [5:15:01<7:11:23,  8.66s/it] 42%|████▏     | 2161/5150 [5:15:09<7:15:05,  8.73s/it] 42%|████▏     | 2162/5150 [5:15:18<7:13:11,  8.70s/it] 42%|████▏     | 2163/5150 [5:15:27<7:11:48,  8.67s/it] 42%|████▏     | 2164/5150 [5:15:35<7:10:53,  8.66s/it] 42%|████▏     | 2165/5150 [5:15:44<7:10:10,  8.65s/it] 42%|████▏     | 2166/5150 [5:15:53<7:13:57,  8.73s/it] 42%|████▏     | 2167/5150 [5:16:01<7:12:13,  8.69s/it] 42%|████▏     | 2168/5150 [5:16:10<7:10:57,  8.67s/it] 42%|████▏     | 2169/5150 [5:16:19<7:10:05,  8.66s/it] 42%|████▏     | 2170/5150 [5:16:28<7:13:50,  8.73s/it]                                                       {'loss': '0.001117', 'grad_norm': '0.06441', 'learning_rate': '0.0001435', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '145.2', 'tokens/total': 35553280, 'tokens/trainable': 11253435, 'epoch': '2.105'}
+ 42%|████▏     | 2170/5150 [5:16:28<7:13:50,  8.73s/it] 42%|████▏     | 2171/5150 [5:16:36<7:12:04,  8.70s/it] 42%|████▏     | 2172/5150 [5:16:45<7:10:45,  8.68s/it] 42%|████▏     | 2173/5150 [5:16:54<7:09:39,  8.66s/it] 42%|████▏     | 2174/5150 [5:17:02<7:08:53,  8.65s/it] 42%|████▏     | 2175/5150 [5:17:11<7:12:29,  8.72s/it] 42%|████▏     | 2176/5150 [5:17:20<7:10:50,  8.69s/it] 42%|████▏     | 2177/5150 [5:17:28<7:09:38,  8.67s/it] 42%|████▏     | 2178/5150 [5:17:37<7:08:43,  8.66s/it] 42%|████▏     | 2179/5150 [5:17:46<7:12:28,  8.73s/it] 42%|████▏     | 2180/5150 [5:17:54<7:10:36,  8.70s/it]                                                       {'loss': '0.0004094', 'grad_norm': '0.05793', 'learning_rate': '0.0001429', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '149', 'tokens/total': 35717120, 'tokens/trainable': 11304542, 'epoch': '2.114'}
+ 42%|████▏     | 2180/5150 [5:17:54<7:10:36,  8.70s/it] 42%|████▏     | 2181/5150 [5:18:03<7:09:20,  8.68s/it] 42%|████▏     | 2182/5150 [5:18:12<7:08:24,  8.66s/it] 42%|████▏     | 2183/5150 [5:18:20<7:07:39,  8.65s/it] 42%|████▏     | 2184/5150 [5:18:29<7:11:32,  8.73s/it] 42%|████▏     | 2185/5150 [5:18:38<7:09:42,  8.70s/it] 42%|████▏     | 2186/5150 [5:18:46<7:08:26,  8.67s/it] 42%|████▏     | 2187/5150 [5:18:55<7:07:28,  8.66s/it] 42%|████▏     | 2188/5150 [5:19:04<7:11:02,  8.73s/it] 43%|████▎     | 2189/5150 [5:19:13<7:09:17,  8.70s/it] 43%|████▎     | 2190/5150 [5:19:21<7:07:58,  8.68s/it]                                                       {'loss': '0.002517', 'grad_norm': '0.05154', 'learning_rate': '0.0001422', 'ppl': '1.003', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '147', 'tokens/total': 35880960, 'tokens/trainable': 11356913, 'epoch': '2.124'}
+ 43%|████▎     | 2190/5150 [5:19:21<7:07:58,  8.68s/it] 43%|████▎     | 2191/5150 [5:19:30<7:07:00,  8.66s/it] 43%|████▎     | 2192/5150 [5:19:38<7:06:18,  8.65s/it] 43%|████▎     | 2193/5150 [5:19:47<7:10:11,  8.73s/it] 43%|████▎     | 2194/5150 [5:19:56<7:08:25,  8.70s/it] 43%|████▎     | 2195/5150 [5:20:05<7:07:10,  8.67s/it] 43%|████▎     | 2196/5150 [5:20:13<7:06:11,  8.66s/it] 43%|████▎     | 2197/5150 [5:20:22<7:05:25,  8.64s/it] 43%|████▎     | 2198/5150 [5:20:31<7:09:18,  8.73s/it] 43%|████▎     | 2199/5150 [5:20:39<7:07:34,  8.69s/it] 43%|████▎     | 2200/5150 [5:20:48<7:06:16,  8.67s/it]                                                       {'loss': '0.002013', 'grad_norm': '0.04921', 'learning_rate': '0.0001416', 'ppl': '1.002', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '142', 'tokens/total': 36044800, 'tokens/trainable': 11408870, 'epoch': '2.134'}
+ 43%|████▎     | 2200/5150 [5:20:48<7:06:16,  8.67s/it] 43%|████▎     | 2201/5150 [5:20:57<7:05:27,  8.66s/it] 43%|████▎     | 2202/5150 [5:21:06<7:09:06,  8.73s/it] 43%|████▎     | 2203/5150 [5:21:14<7:07:08,  8.70s/it] 43%|████▎     | 2204/5150 [5:21:23<7:05:45,  8.67s/it] 43%|████▎     | 2205/5150 [5:21:31<7:04:49,  8.66s/it] 43%|████▎     | 2206/5150 [5:21:40<7:04:07,  8.64s/it] 43%|████▎     | 2207/5150 [5:21:49<7:07:54,  8.72s/it] 43%|████▎     | 2208/5150 [5:21:58<7:06:12,  8.69s/it] 43%|████▎     | 2209/5150 [5:22:06<7:04:59,  8.67s/it] 43%|████▎     | 2210/5150 [5:22:15<7:04:07,  8.66s/it]                                                       {'loss': '0.001192', 'grad_norm': '0.04472', 'learning_rate': '0.000141', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '147.3', 'tokens/total': 36208640, 'tokens/trainable': 11460295, 'epoch': '2.144'}
+ 43%|████▎     | 2210/5150 [5:22:15<7:04:07,  8.66s/it] 43%|████▎     | 2211/5150 [5:22:24<7:07:40,  8.73s/it] 43%|████▎     | 2212/5150 [5:22:32<7:05:49,  8.70s/it] 43%|████▎     | 2213/5150 [5:22:41<7:04:34,  8.67s/it] 43%|████▎     | 2214/5150 [5:22:50<7:03:32,  8.66s/it] 43%|████▎     | 2215/5150 [5:22:58<7:02:51,  8.64s/it] 43%|████▎     | 2216/5150 [5:23:07<7:06:42,  8.73s/it] 43%|████▎     | 2217/5150 [5:23:16<7:04:55,  8.69s/it] 43%|████▎     | 2218/5150 [5:23:24<7:03:42,  8.67s/it] 43%|████▎     | 2219/5150 [5:23:33<7:02:53,  8.66s/it] 43%|████▎     | 2220/5150 [5:23:42<7:06:25,  8.73s/it]                                                       {'loss': '0.0007912', 'grad_norm': '0.04136', 'learning_rate': '0.0001404', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '143.8', 'tokens/total': 36372480, 'tokens/trainable': 11512312, 'epoch': '2.153'}
+ 43%|████▎     | 2220/5150 [5:23:42<7:06:25,  8.73s/it] 43%|████▎     | 2221/5150 [5:23:50<7:04:36,  8.70s/it] 43%|████▎     | 2222/5150 [5:23:59<7:03:11,  8.67s/it] 43%|████▎     | 2223/5150 [5:24:08<7:02:13,  8.66s/it] 43%|████▎     | 2224/5150 [5:24:16<7:01:32,  8.64s/it] 43%|████▎     | 2225/5150 [5:24:25<7:05:13,  8.72s/it] 43%|████▎     | 2226/5150 [5:24:34<7:03:31,  8.69s/it] 43%|████▎     | 2227/5150 [5:24:42<7:02:18,  8.67s/it] 43%|████▎     | 2228/5150 [5:24:51<7:01:20,  8.65s/it] 43%|████▎     | 2229/5150 [5:25:00<7:04:53,  8.73s/it] 43%|████▎     | 2230/5150 [5:25:09<7:03:08,  8.69s/it]                                                       {'loss': '0.0007991', 'grad_norm': '0.03099', 'learning_rate': '0.0001398', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '164.5', 'tokens/total': 36536320, 'tokens/trainable': 11564711, 'epoch': '2.163'}
+ 43%|████▎     | 2230/5150 [5:25:09<7:03:08,  8.69s/it] 43%|████▎     | 2231/5150 [5:25:17<7:01:53,  8.67s/it] 43%|████▎     | 2232/5150 [5:25:26<7:00:55,  8.66s/it] 43%|████▎     | 2233/5150 [5:25:34<7:00:11,  8.64s/it] 43%|████▎     | 2234/5150 [5:25:43<7:03:58,  8.72s/it] 43%|████▎     | 2235/5150 [5:25:52<7:02:18,  8.69s/it] 43%|████▎     | 2236/5150 [5:26:01<7:01:06,  8.67s/it] 43%|████▎     | 2237/5150 [5:26:09<7:00:06,  8.65s/it] 43%|████▎     | 2238/5150 [5:26:18<7:03:41,  8.73s/it] 43%|████▎     | 2239/5150 [5:26:27<7:01:51,  8.70s/it] 43%|████▎     | 2240/5150 [5:26:35<7:00:29,  8.67s/it]                                                       {'loss': '0.0003661', 'grad_norm': '0.04199', 'learning_rate': '0.0001392', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '142.8', 'tokens/total': 36700160, 'tokens/trainable': 11617418, 'epoch': '2.173'}
+ 43%|████▎     | 2240/5150 [5:26:35<7:00:29,  8.67s/it] 44%|████▎     | 2241/5150 [5:26:44<6:59:35,  8.65s/it] 44%|████▎     | 2242/5150 [5:26:53<6:58:57,  8.64s/it] 44%|████▎     | 2243/5150 [5:27:01<7:02:24,  8.72s/it] 44%|████▎     | 2244/5150 [5:27:10<7:00:49,  8.69s/it] 44%|████▎     | 2245/5150 [5:27:19<6:59:40,  8.67s/it] 44%|████▎     | 2246/5150 [5:27:27<6:58:48,  8.65s/it] 44%|████▎     | 2247/5150 [5:27:36<7:02:35,  8.73s/it] 44%|████▎     | 2248/5150 [5:27:45<7:00:48,  8.70s/it] 44%|████▎     | 2249/5150 [5:27:53<6:59:29,  8.68s/it] 44%|████▎     | 2250/5150 [5:28:02<6:58:35,  8.66s/it]                                                       {'loss': '0.0002446', 'grad_norm': '0.02153', 'learning_rate': '0.0001385', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '151.2', 'tokens/total': 36864000, 'tokens/trainable': 11669756, 'epoch': '2.182'}
+ 44%|████▎     | 2250/5150 [5:28:02<6:58:35,  8.66s/it] 44%|████▎     | 2251/5150 [5:28:11<6:57:54,  8.65s/it] 44%|████▎     | 2252/5150 [5:28:20<7:01:31,  8.73s/it] 44%|████▎     | 2253/5150 [5:28:28<6:59:44,  8.69s/it] 44%|████▍     | 2254/5150 [5:28:37<6:58:31,  8.67s/it] 44%|████▍     | 2255/5150 [5:28:45<6:57:35,  8.65s/it] 44%|████▍     | 2256/5150 [5:28:54<7:01:08,  8.73s/it] 44%|████▍     | 2257/5150 [5:29:03<6:59:21,  8.70s/it] 44%|████▍     | 2258/5150 [5:29:12<6:58:08,  8.68s/it] 44%|████▍     | 2259/5150 [5:29:20<6:57:09,  8.66s/it] 44%|████▍     | 2260/5150 [5:29:29<6:56:33,  8.65s/it]                                                       {'loss': '0.0002798', 'grad_norm': '0.01275', 'learning_rate': '0.0001379', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '145', 'tokens/total': 37027840, 'tokens/trainable': 11721688, 'epoch': '2.192'}
+ 44%|████▍     | 2260/5150 [5:29:29<6:56:33,  8.65s/it] 44%|████▍     | 2261/5150 [5:29:38<7:00:10,  8.73s/it] 44%|████▍     | 2262/5150 [5:29:46<6:58:32,  8.70s/it] 44%|████▍     | 2263/5150 [5:29:55<6:57:19,  8.67s/it] 44%|████▍     | 2264/5150 [5:30:04<6:56:27,  8.66s/it] 44%|████▍     | 2265/5150 [5:30:12<6:55:43,  8.65s/it] 44%|████▍     | 2266/5150 [5:30:21<6:59:31,  8.73s/it] 44%|████▍     | 2267/5150 [5:30:30<6:59:37,  8.73s/it] 44%|████▍     | 2268/5150 [5:30:39<6:57:49,  8.70s/it] 44%|████▍     | 2269/5150 [5:30:47<6:56:36,  8.68s/it] 44%|████▍     | 2270/5150 [5:30:56<6:59:56,  8.75s/it]                                                       {'loss': '0.0002191', 'grad_norm': '0.00189', 'learning_rate': '0.0001373', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '150', 'tokens/total': 37191680, 'tokens/trainable': 11773364, 'epoch': '2.202'}
+ 44%|████▍     | 2270/5150 [5:30:56<6:59:56,  8.75s/it] 44%|████▍     | 2271/5150 [5:31:05<6:58:02,  8.71s/it] 44%|████▍     | 2272/5150 [5:31:13<6:56:31,  8.68s/it] 44%|████▍     | 2273/5150 [5:31:22<6:55:28,  8.66s/it] 44%|████▍     | 2274/5150 [5:31:31<6:58:34,  8.73s/it] 44%|████▍     | 2275/5150 [5:31:39<6:56:53,  8.70s/it] 44%|████▍     | 2276/5150 [5:31:48<6:55:45,  8.68s/it] 44%|████▍     | 2277/5150 [5:31:57<6:54:47,  8.66s/it] 44%|████▍     | 2278/5150 [5:32:05<6:54:01,  8.65s/it] 44%|████▍     | 2279/5150 [5:32:14<6:57:41,  8.73s/it] 44%|████▍     | 2280/5150 [5:32:23<6:56:06,  8.70s/it]                                                       {'loss': '0.0002921', 'grad_norm': '0.002459', 'learning_rate': '0.0001366', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '151.4', 'tokens/total': 37355520, 'tokens/trainable': 11824754, 'epoch': '2.211'}
+ 44%|████▍     | 2280/5150 [5:32:23<6:56:06,  8.70s/it] 44%|████▍     | 2281/5150 [5:32:32<6:55:21,  8.69s/it] 44%|████▍     | 2282/5150 [5:32:40<6:54:26,  8.67s/it] 44%|████▍     | 2283/5150 [5:32:49<6:57:39,  8.74s/it] 44%|████▍     | 2284/5150 [5:32:58<6:55:44,  8.70s/it] 44%|████▍     | 2285/5150 [5:33:06<6:54:24,  8.68s/it] 44%|████▍     | 2286/5150 [5:33:15<6:53:20,  8.66s/it] 44%|████▍     | 2287/5150 [5:33:24<6:52:31,  8.65s/it] 44%|████▍     | 2288/5150 [5:33:32<6:56:12,  8.73s/it] 44%|████▍     | 2289/5150 [5:33:41<6:54:32,  8.69s/it] 44%|████▍     | 2290/5150 [5:33:50<6:53:23,  8.67s/it]                                                       {'loss': '0.0005004', 'grad_norm': '0.01906', 'learning_rate': '0.000136', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '145.7', 'tokens/total': 37519360, 'tokens/trainable': 11876282, 'epoch': '2.221'}
+ 44%|████▍     | 2290/5150 [5:33:50<6:53:23,  8.67s/it] 44%|████▍     | 2291/5150 [5:33:58<6:52:30,  8.66s/it] 45%|████▍     | 2292/5150 [5:34:07<6:55:57,  8.73s/it] 45%|████▍     | 2293/5150 [5:34:16<6:54:11,  8.70s/it] 45%|████▍     | 2294/5150 [5:34:24<6:52:55,  8.67s/it] 45%|████▍     | 2295/5150 [5:34:33<6:51:58,  8.66s/it] 45%|████▍     | 2296/5150 [5:34:42<6:51:18,  8.65s/it] 45%|████▍     | 2297/5150 [5:34:51<6:54:42,  8.72s/it] 45%|████▍     | 2298/5150 [5:34:59<6:53:04,  8.69s/it] 45%|████▍     | 2299/5150 [5:35:08<6:51:50,  8.67s/it] 45%|████▍     | 2300/5150 [5:35:16<6:51:07,  8.66s/it]                                                       {'loss': '0.0003886', 'grad_norm': '0.0421', 'learning_rate': '0.0001354', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '148.8', 'tokens/total': 37683200, 'tokens/trainable': 11928011, 'epoch': '2.231'}
+ 45%|████▍     | 2300/5150 [5:35:16<6:51:07,  8.66s/it] 45%|████▍     | 2301/5150 [5:35:25<6:54:30,  8.73s/it] 45%|████▍     | 2302/5150 [5:35:34<6:52:43,  8.69s/it] 45%|████▍     | 2303/5150 [5:35:43<6:51:29,  8.67s/it] 45%|████▍     | 2304/5150 [5:35:51<6:50:35,  8.66s/it] 45%|████▍     | 2305/5150 [5:36:00<6:49:54,  8.64s/it] 45%|████▍     | 2306/5150 [5:36:09<6:53:25,  8.72s/it] 45%|████▍     | 2307/5150 [5:36:17<6:51:46,  8.69s/it] 45%|████▍     | 2308/5150 [5:36:26<6:50:32,  8.67s/it] 45%|████▍     | 2309/5150 [5:36:35<6:49:39,  8.65s/it] 45%|████▍     | 2310/5150 [5:36:43<6:53:03,  8.73s/it]                                                       {'loss': '0.0001295', 'grad_norm': '0.001314', 'learning_rate': '0.0001347', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '148.2', 'tokens/total': 37847040, 'tokens/trainable': 11979772, 'epoch': '2.241'}
+ 45%|████▍     | 2310/5150 [5:36:43<6:53:03,  8.73s/it] 45%|████▍     | 2311/5150 [5:36:52<6:51:29,  8.70s/it] 45%|████▍     | 2312/5150 [5:37:01<6:50:16,  8.67s/it] 45%|████▍     | 2313/5150 [5:37:09<6:49:20,  8.66s/it] 45%|████▍     | 2314/5150 [5:37:18<6:48:36,  8.64s/it] 45%|████▍     | 2315/5150 [5:37:27<6:52:06,  8.72s/it] 45%|████▍     | 2316/5150 [5:37:35<6:50:29,  8.69s/it] 45%|████▍     | 2317/5150 [5:37:44<6:49:20,  8.67s/it] 45%|████▌     | 2318/5150 [5:37:53<6:48:33,  8.66s/it] 45%|████▌     | 2319/5150 [5:38:02<6:51:48,  8.73s/it] 45%|████▌     | 2320/5150 [5:38:10<6:50:10,  8.70s/it]                                                       {'loss': '0.0002489', 'grad_norm': '0.01039', 'learning_rate': '0.0001341', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '160.3', 'tokens/total': 38010880, 'tokens/trainable': 12032584, 'epoch': '2.25'}
+ 45%|████▌     | 2320/5150 [5:38:10<6:50:10,  8.70s/it] 45%|████▌     | 2321/5150 [5:38:19<6:48:55,  8.67s/it] 45%|████▌     | 2322/5150 [5:38:27<6:48:02,  8.66s/it] 45%|████▌     | 2323/5150 [5:38:36<6:47:22,  8.65s/it] 45%|████▌     | 2324/5150 [5:38:45<6:50:57,  8.73s/it] 45%|████▌     | 2325/5150 [5:38:54<6:49:16,  8.69s/it] 45%|████▌     | 2326/5150 [5:39:02<6:48:06,  8.67s/it] 45%|████▌     | 2327/5150 [5:39:11<6:47:11,  8.65s/it] 45%|████▌     | 2328/5150 [5:39:20<6:50:40,  8.73s/it] 45%|████▌     | 2329/5150 [5:39:28<6:48:57,  8.70s/it] 45%|████▌     | 2330/5150 [5:39:37<6:47:35,  8.67s/it]                                                       {'loss': '0.000136', 'grad_norm': '0.00386', 'learning_rate': '0.0001335', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '145.6', 'tokens/total': 38174720, 'tokens/trainable': 12084539, 'epoch': '2.26'}
+ 45%|████▌     | 2330/5150 [5:39:37<6:47:35,  8.67s/it] 45%|████▌     | 2331/5150 [5:39:46<6:46:40,  8.66s/it] 45%|████▌     | 2332/5150 [5:39:54<6:45:59,  8.64s/it] 45%|████▌     | 2333/5150 [5:40:03<6:49:35,  8.72s/it] 45%|████▌     | 2334/5150 [5:40:12<6:47:52,  8.69s/it] 45%|████▌     | 2335/5150 [5:40:20<6:46:40,  8.67s/it] 45%|████▌     | 2336/5150 [5:40:29<6:45:43,  8.65s/it] 45%|████▌     | 2337/5150 [5:40:38<6:48:56,  8.72s/it] 45%|████▌     | 2338/5150 [5:40:46<6:47:17,  8.69s/it] 45%|████▌     | 2339/5150 [5:40:55<6:46:03,  8.67s/it] 45%|████▌     | 2340/5150 [5:41:04<6:45:12,  8.65s/it]                                                       {'loss': '0.0002794', 'grad_norm': '0.001692', 'learning_rate': '0.0001328', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '155.6', 'tokens/total': 38338560, 'tokens/trainable': 12136397, 'epoch': '2.27'}
+ 45%|████▌     | 2340/5150 [5:41:04<6:45:12,  8.65s/it] 45%|████▌     | 2341/5150 [5:41:12<6:44:39,  8.64s/it] 45%|████▌     | 2342/5150 [5:41:21<6:48:18,  8.72s/it] 45%|████▌     | 2343/5150 [5:41:30<6:46:36,  8.69s/it] 46%|████▌     | 2344/5150 [5:41:38<6:45:22,  8.67s/it] 46%|████▌     | 2345/5150 [5:41:47<6:44:29,  8.65s/it] 46%|████▌     | 2346/5150 [5:41:56<6:47:49,  8.73s/it] 46%|████▌     | 2347/5150 [5:42:05<6:46:05,  8.69s/it] 46%|████▌     | 2348/5150 [5:42:13<6:44:53,  8.67s/it] 46%|████▌     | 2349/5150 [5:42:22<6:43:57,  8.65s/it] 46%|████▌     | 2350/5150 [5:42:30<6:43:18,  8.64s/it]                                                       {'loss': '0.0001655', 'grad_norm': '0.009572', 'learning_rate': '0.0001322', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '164.4', 'tokens/total': 38502400, 'tokens/trainable': 12188376, 'epoch': '2.279'}
+ 46%|████▌     | 2350/5150 [5:42:30<6:43:18,  8.64s/it] 46%|████▌     | 2351/5150 [5:42:39<6:46:52,  8.72s/it] 46%|████▌     | 2352/5150 [5:42:48<6:45:20,  8.69s/it] 46%|████▌     | 2353/5150 [5:42:57<6:44:04,  8.67s/it] 46%|████▌     | 2354/5150 [5:43:05<6:43:10,  8.65s/it] 46%|████▌     | 2355/5150 [5:43:14<6:46:29,  8.73s/it] 46%|████▌     | 2356/5150 [5:43:23<6:44:47,  8.69s/it] 46%|████▌     | 2357/5150 [5:43:31<6:43:37,  8.67s/it] 46%|████▌     | 2358/5150 [5:43:40<6:42:43,  8.65s/it] 46%|████▌     | 2359/5150 [5:43:49<6:42:03,  8.64s/it] 46%|████▌     | 2360/5150 [5:43:57<6:45:28,  8.72s/it]                                                       {'loss': '0.0001926', 'grad_norm': '0.01504', 'learning_rate': '0.0001315', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '158.2', 'tokens/total': 38666240, 'tokens/trainable': 12240133, 'epoch': '2.289'}
+ 46%|████▌     | 2360/5150 [5:43:57<6:45:28,  8.72s/it] 46%|████▌     | 2361/5150 [5:44:06<6:43:59,  8.69s/it] 46%|████▌     | 2362/5150 [5:44:15<6:42:48,  8.67s/it] 46%|████▌     | 2363/5150 [5:44:23<6:41:56,  8.65s/it] 46%|████▌     | 2364/5150 [5:44:32<6:45:16,  8.73s/it] 46%|████▌     | 2365/5150 [5:44:41<6:43:37,  8.70s/it] 46%|████▌     | 2366/5150 [5:44:49<6:42:26,  8.67s/it] 46%|████▌     | 2367/5150 [5:44:58<6:41:36,  8.66s/it] 46%|████▌     | 2368/5150 [5:45:07<6:40:58,  8.65s/it] 46%|████▌     | 2369/5150 [5:45:16<6:44:29,  8.73s/it] 46%|████▌     | 2370/5150 [5:45:24<6:42:51,  8.69s/it]                                                       {'loss': '0.0004659', 'grad_norm': '0.00921', 'learning_rate': '0.0001309', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '151.7', 'tokens/total': 38830080, 'tokens/trainable': 12291622, 'epoch': '2.299'}
+ 46%|████▌     | 2370/5150 [5:45:24<6:42:51,  8.69s/it] 46%|████▌     | 2371/5150 [5:45:33<6:41:49,  8.68s/it] 46%|████▌     | 2372/5150 [5:45:42<6:40:52,  8.66s/it] 46%|████▌     | 2373/5150 [5:45:50<6:44:12,  8.73s/it] 46%|████▌     | 2374/5150 [5:45:59<6:42:26,  8.70s/it] 46%|████▌     | 2375/5150 [5:46:08<6:41:12,  8.67s/it] 46%|████▌     | 2376/5150 [5:46:16<6:40:18,  8.66s/it] 46%|████▌     | 2377/5150 [5:46:25<6:39:37,  8.65s/it] 46%|████▌     | 2378/5150 [5:46:34<6:42:54,  8.72s/it] 46%|████▌     | 2379/5150 [5:46:42<6:41:21,  8.69s/it] 46%|████▌     | 2380/5150 [5:46:51<6:40:08,  8.67s/it]                                                       {'loss': '0.0001622', 'grad_norm': '0.007215', 'learning_rate': '0.0001303', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '150.3', 'tokens/total': 38993920, 'tokens/trainable': 12343343, 'epoch': '2.308'}
+ 46%|████▌     | 2380/5150 [5:46:51<6:40:08,  8.67s/it] 46%|████▌     | 2381/5150 [5:47:00<6:39:24,  8.65s/it] 46%|████▋     | 2382/5150 [5:47:09<6:42:49,  8.73s/it] 46%|████▋     | 2383/5150 [5:47:17<6:41:03,  8.70s/it] 46%|████▋     | 2384/5150 [5:47:26<6:39:49,  8.67s/it] 46%|████▋     | 2385/5150 [5:47:34<6:38:54,  8.66s/it] 46%|████▋     | 2386/5150 [5:47:43<6:38:11,  8.64s/it] 46%|████▋     | 2387/5150 [5:47:52<6:41:47,  8.73s/it] 46%|████▋     | 2388/5150 [5:48:01<6:40:10,  8.69s/it] 46%|████▋     | 2389/5150 [5:48:09<6:38:59,  8.67s/it] 46%|████▋     | 2390/5150 [5:48:18<6:38:14,  8.66s/it]                                                       {'loss': '0.0002122', 'grad_norm': '0.1519', 'learning_rate': '0.0001296', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '161', 'tokens/total': 39157760, 'tokens/trainable': 12395635, 'epoch': '2.318'}
+ 46%|████▋     | 2390/5150 [5:48:18<6:38:14,  8.66s/it] 46%|████▋     | 2391/5150 [5:48:27<6:41:31,  8.73s/it] 46%|████▋     | 2392/5150 [5:48:35<6:39:51,  8.70s/it] 46%|████▋     | 2393/5150 [5:48:44<6:38:36,  8.67s/it] 46%|████▋     | 2394/5150 [5:48:53<6:37:39,  8.66s/it] 47%|████▋     | 2395/5150 [5:49:01<6:37:00,  8.65s/it] 47%|████▋     | 2396/5150 [5:49:10<6:40:26,  8.72s/it] 47%|████▋     | 2397/5150 [5:49:19<6:38:50,  8.69s/it] 47%|████▋     | 2398/5150 [5:49:27<6:37:42,  8.67s/it] 47%|████▋     | 2399/5150 [5:49:36<6:36:50,  8.66s/it] 47%|████▋     | 2400/5150 [5:49:45<6:40:13,  8.73s/it]                                                       {'loss': '0.0007686', 'grad_norm': '0.01541', 'learning_rate': '0.000129', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '140.2', 'tokens/total': 39321600, 'tokens/trainable': 12447892, 'epoch': '2.328'}
+ 47%|████▋     | 2400/5150 [5:49:45<6:40:13,  8.73s/it] 47%|████▋     | 2401/5150 [5:49:53<6:38:31,  8.70s/it] 47%|████▋     | 2402/5150 [5:50:02<6:37:14,  8.67s/it] 47%|████▋     | 2403/5150 [5:50:11<6:36:20,  8.66s/it] 47%|████▋     | 2404/5150 [5:50:19<6:35:42,  8.65s/it] 47%|████▋     | 2405/5150 [5:50:28<6:39:14,  8.73s/it] 47%|████▋     | 2406/5150 [5:50:37<6:37:34,  8.69s/it] 47%|████▋     | 2407/5150 [5:50:45<6:36:21,  8.67s/it] 47%|████▋     | 2408/5150 [5:50:54<6:35:27,  8.65s/it] 47%|████▋     | 2409/5150 [5:51:03<6:38:44,  8.73s/it] 47%|████▋     | 2410/5150 [5:51:12<6:37:01,  8.69s/it]                                                       {'loss': '0.000457', 'grad_norm': '0.012', 'learning_rate': '0.0001283', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '145.2', 'tokens/total': 39485440, 'tokens/trainable': 12499811, 'epoch': '2.338'}
+ 47%|████▋     | 2410/5150 [5:51:12<6:37:01,  8.69s/it] 47%|████▋     | 2411/5150 [5:51:20<6:35:55,  8.67s/it] 47%|████▋     | 2412/5150 [5:51:29<6:34:59,  8.66s/it] 47%|████▋     | 2413/5150 [5:51:37<6:34:18,  8.64s/it] 47%|████▋     | 2414/5150 [5:51:46<6:37:52,  8.73s/it] 47%|████▋     | 2415/5150 [5:51:55<6:36:17,  8.69s/it] 47%|████▋     | 2416/5150 [5:52:04<6:35:04,  8.67s/it] 47%|████▋     | 2417/5150 [5:52:12<6:34:13,  8.65s/it] 47%|████▋     | 2418/5150 [5:52:21<6:37:24,  8.73s/it] 47%|████▋     | 2419/5150 [5:52:30<6:35:45,  8.69s/it] 47%|████▋     | 2420/5150 [5:52:38<6:34:35,  8.67s/it]                                                       {'loss': '0.0004837', 'grad_norm': '0.02011', 'learning_rate': '0.0001277', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '145.3', 'tokens/total': 39649280, 'tokens/trainable': 12552172, 'epoch': '2.347'}
+ 47%|████▋     | 2420/5150 [5:52:38<6:34:35,  8.67s/it] 47%|████▋     | 2421/5150 [5:52:47<6:33:48,  8.66s/it] 47%|████▋     | 2422/5150 [5:52:56<6:33:08,  8.65s/it] 47%|████▋     | 2423/5150 [5:53:05<6:36:24,  8.72s/it] 47%|████▋     | 2424/5150 [5:53:13<6:34:49,  8.69s/it] 47%|████▋     | 2425/5150 [5:53:22<6:33:43,  8.67s/it] 47%|████▋     | 2426/5150 [5:53:30<6:32:53,  8.65s/it] 47%|████▋     | 2427/5150 [5:53:39<6:35:53,  8.72s/it] 47%|████▋     | 2428/5150 [5:53:48<6:34:19,  8.69s/it] 47%|████▋     | 2429/5150 [5:53:57<6:33:11,  8.67s/it] 47%|████▋     | 2430/5150 [5:54:05<6:32:17,  8.65s/it]                                                       {'loss': '0.0005223', 'grad_norm': '0.009451', 'learning_rate': '0.000127', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '149.9', 'tokens/total': 39813120, 'tokens/trainable': 12603773, 'epoch': '2.357'}
+ 47%|████▋     | 2430/5150 [5:54:05<6:32:17,  8.65s/it] 47%|████▋     | 2431/5150 [5:54:14<6:31:41,  8.64s/it] 47%|████▋     | 2432/5150 [5:54:23<6:35:08,  8.72s/it] 47%|████▋     | 2433/5150 [5:54:31<6:33:33,  8.69s/it] 47%|████▋     | 2434/5150 [5:54:40<6:32:23,  8.67s/it] 47%|████▋     | 2435/5150 [5:54:48<6:31:32,  8.65s/it] 47%|████▋     | 2436/5150 [5:54:57<6:34:59,  8.73s/it] 47%|████▋     | 2437/5150 [5:55:06<6:33:16,  8.70s/it] 47%|████▋     | 2438/5150 [5:55:15<6:32:00,  8.67s/it] 47%|████▋     | 2439/5150 [5:55:23<6:31:06,  8.66s/it] 47%|████▋     | 2440/5150 [5:55:32<6:30:28,  8.65s/it]                                                       {'loss': '0.0002756', 'grad_norm': '0.004557', 'learning_rate': '0.0001264', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '161.7', 'tokens/total': 39976960, 'tokens/trainable': 12655567, 'epoch': '2.367'}
+ 47%|████▋     | 2440/5150 [5:55:32<6:30:28,  8.65s/it] 47%|████▋     | 2441/5150 [5:55:41<6:34:00,  8.73s/it] 47%|████▋     | 2442/5150 [5:55:49<6:32:21,  8.69s/it] 47%|████▋     | 2443/5150 [5:55:58<6:31:10,  8.67s/it] 47%|████▋     | 2444/5150 [5:56:07<6:30:19,  8.65s/it] 47%|████▋     | 2445/5150 [5:56:16<6:33:35,  8.73s/it] 47%|████▋     | 2446/5150 [5:56:24<6:31:51,  8.70s/it] 48%|████▊     | 2447/5150 [5:56:33<6:30:40,  8.67s/it] 48%|████▊     | 2448/5150 [5:56:41<6:29:43,  8.65s/it] 48%|████▊     | 2449/5150 [5:56:50<6:29:05,  8.64s/it] 48%|████▊     | 2450/5150 [5:56:59<6:32:28,  8.72s/it]                                                       {'loss': '0.000362', 'grad_norm': '0.006304', 'learning_rate': '0.0001257', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '142.5', 'tokens/total': 40140800, 'tokens/trainable': 12707197, 'epoch': '2.376'}
+ 48%|████▊     | 2450/5150 [5:56:59<6:32:28,  8.72s/it] 48%|████▊     | 2451/5150 [5:57:08<6:30:56,  8.69s/it] 48%|████▊     | 2452/5150 [5:57:16<6:29:48,  8.67s/it] 48%|████▊     | 2453/5150 [5:57:25<6:28:55,  8.65s/it] 48%|████▊     | 2454/5150 [5:57:34<6:32:12,  8.73s/it] 48%|████▊     | 2455/5150 [5:57:42<6:30:36,  8.70s/it] 48%|████▊     | 2456/5150 [5:57:51<6:29:25,  8.67s/it] 48%|████▊     | 2457/5150 [5:58:00<6:28:30,  8.66s/it] 48%|████▊     | 2458/5150 [5:58:08<6:27:50,  8.64s/it] 48%|████▊     | 2459/5150 [5:58:17<6:31:14,  8.72s/it] 48%|████▊     | 2460/5150 [5:58:26<6:29:40,  8.69s/it]                                                       {'loss': '0.0003812', 'grad_norm': '0.0233', 'learning_rate': '0.000125', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '153.6', 'tokens/total': 40304640, 'tokens/trainable': 12760073, 'epoch': '2.386'}
+ 48%|████▊     | 2460/5150 [5:58:26<6:29:40,  8.69s/it] 48%|████▊     | 2461/5150 [5:58:34<6:28:35,  8.67s/it] 48%|████▊     | 2462/5150 [5:58:43<6:27:45,  8.66s/it] 48%|████▊     | 2463/5150 [5:58:52<6:31:01,  8.73s/it] 48%|████▊     | 2464/5150 [5:59:00<6:29:16,  8.70s/it] 48%|████▊     | 2465/5150 [5:59:09<6:28:05,  8.67s/it] 48%|████▊     | 2466/5150 [5:59:18<6:27:13,  8.66s/it] 48%|████▊     | 2467/5150 [5:59:26<6:26:32,  8.64s/it] 48%|████▊     | 2468/5150 [5:59:35<6:29:56,  8.72s/it] 48%|████▊     | 2469/5150 [5:59:44<6:28:24,  8.69s/it] 48%|████▊     | 2470/5150 [5:59:52<6:27:11,  8.67s/it]                                                       {'loss': '0.0001924', 'grad_norm': '0.01797', 'learning_rate': '0.0001244', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '144.2', 'tokens/total': 40468480, 'tokens/trainable': 12812022, 'epoch': '2.396'}
+ 48%|████▊     | 2470/5150 [5:59:52<6:27:11,  8.67s/it] 48%|████▊     | 2471/5150 [6:00:01<6:26:24,  8.65s/it] 48%|████▊     | 2472/5150 [6:00:10<6:25:45,  8.64s/it] 48%|████▊     | 2473/5150 [6:00:19<6:29:16,  8.73s/it] 48%|████▊     | 2474/5150 [6:00:27<6:27:42,  8.69s/it] 48%|████▊     | 2475/5150 [6:00:36<6:26:33,  8.67s/it] 48%|████▊     | 2476/5150 [6:00:44<6:25:45,  8.66s/it] 48%|████▊     | 2477/5150 [6:00:53<6:29:08,  8.74s/it] 48%|████▊     | 2478/5150 [6:01:02<6:27:27,  8.70s/it] 48%|████▊     | 2479/5150 [6:01:11<6:26:17,  8.68s/it] 48%|████▊     | 2480/5150 [6:01:19<6:25:23,  8.66s/it]                                                       {'loss': '8.077e-05', 'grad_norm': '0.0007189', 'learning_rate': '0.0001237', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '163.4', 'tokens/total': 40632320, 'tokens/trainable': 12864784, 'epoch': '2.405'}
+ 48%|████▊     | 2480/5150 [6:01:19<6:25:23,  8.66s/it] 48%|████▊     | 2481/5150 [6:01:28<6:24:43,  8.65s/it] 48%|████▊     | 2482/5150 [6:01:37<6:27:59,  8.73s/it] 48%|████▊     | 2483/5150 [6:01:45<6:26:26,  8.69s/it] 48%|████▊     | 2484/5150 [6:01:54<6:25:18,  8.67s/it] 48%|████▊     | 2485/5150 [6:02:03<6:24:26,  8.66s/it] 48%|████▊     | 2486/5150 [6:02:12<6:27:53,  8.74s/it] 48%|████▊     | 2487/5150 [6:02:20<6:26:17,  8.70s/it] 48%|████▊     | 2488/5150 [6:02:29<6:24:59,  8.68s/it] 48%|████▊     | 2489/5150 [6:02:37<6:24:08,  8.66s/it] 48%|████▊     | 2490/5150 [6:02:46<6:27:25,  8.74s/it]                                                       {'loss': '0.0003873', 'grad_norm': '0.003684', 'learning_rate': '0.0001231', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '142.7', 'tokens/total': 40796160, 'tokens/trainable': 12916198, 'epoch': '2.415'}
+ 48%|████▊     | 2490/5150 [6:02:46<6:27:25,  8.74s/it] 48%|████▊     | 2491/5150 [6:02:55<6:25:47,  8.71s/it] 48%|████▊     | 2492/5150 [6:03:04<6:24:32,  8.68s/it] 48%|████▊     | 2493/5150 [6:03:12<6:23:35,  8.66s/it] 48%|████▊     | 2494/5150 [6:03:21<6:22:54,  8.65s/it] 48%|████▊     | 2495/5150 [6:03:30<6:26:14,  8.73s/it] 48%|████▊     | 2496/5150 [6:03:38<6:24:38,  8.70s/it] 48%|████▊     | 2497/5150 [6:03:47<6:23:29,  8.67s/it] 49%|████▊     | 2498/5150 [6:03:56<6:22:38,  8.66s/it] 49%|████▊     | 2499/5150 [6:04:04<6:25:52,  8.73s/it] 49%|████▊     | 2500/5150 [6:04:13<6:24:14,  8.70s/it]                                                       {'loss': '5.254e-05', 'grad_norm': '0.008497', 'learning_rate': '0.0001224', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '153.8', 'tokens/total': 40960000, 'tokens/trainable': 12968010, 'epoch': '2.425'}
+ 49%|████▊     | 2500/5150 [6:04:13<6:24:14,  8.70s/it] 49%|████▊     | 2501/5150 [6:04:22<6:23:06,  8.68s/it] 49%|████▊     | 2502/5150 [6:04:30<6:22:12,  8.66s/it] 49%|████▊     | 2503/5150 [6:04:39<6:21:31,  8.65s/it] 49%|████▊     | 2504/5150 [6:04:48<6:24:53,  8.73s/it] 49%|████▊     | 2505/5150 [6:04:57<6:23:14,  8.69s/it] 49%|████▊     | 2506/5150 [6:05:05<6:22:06,  8.67s/it] 49%|████▊     | 2507/5150 [6:05:14<6:21:18,  8.66s/it] 49%|████▊     | 2508/5150 [6:05:23<6:24:28,  8.73s/it] 49%|████▊     | 2509/5150 [6:05:31<6:22:52,  8.70s/it] 49%|████▊     | 2510/5150 [6:05:40<6:21:39,  8.67s/it]                                                       {'loss': '0.0003195', 'grad_norm': '0.003095', 'learning_rate': '0.0001218', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '145.7', 'tokens/total': 41123840, 'tokens/trainable': 13019747, 'epoch': '2.435'}
+ 49%|████▊     | 2510/5150 [6:05:40<6:21:39,  8.67s/it] 49%|████▉     | 2511/5150 [6:05:49<6:20:48,  8.66s/it] 49%|████▉     | 2512/5150 [6:05:57<6:20:09,  8.65s/it] 49%|████▉     | 2513/5150 [6:06:06<6:23:28,  8.73s/it] 49%|████▉     | 2514/5150 [6:06:15<6:21:57,  8.69s/it] 49%|████▉     | 2515/5150 [6:06:23<6:20:48,  8.67s/it] 49%|████▉     | 2516/5150 [6:06:32<6:19:58,  8.66s/it] 49%|████▉     | 2517/5150 [6:06:41<6:23:14,  8.73s/it] 49%|████▉     | 2518/5150 [6:06:49<6:21:34,  8.70s/it] 49%|████▉     | 2519/5150 [6:06:58<6:20:20,  8.67s/it] 49%|████▉     | 2520/5150 [6:07:07<6:19:33,  8.66s/it]                                                       {'loss': '0.0001218', 'grad_norm': '0.0191', 'learning_rate': '0.0001211', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '161.6', 'tokens/total': 41287680, 'tokens/trainable': 13071199, 'epoch': '2.444'}
+ 49%|████▉     | 2520/5150 [6:07:07<6:19:33,  8.66s/it] 49%|████▉     | 2521/5150 [6:07:15<6:18:56,  8.65s/it] 49%|████▉     | 2522/5150 [6:07:24<6:22:20,  8.73s/it] 49%|████▉     | 2523/5150 [6:07:33<6:20:46,  8.70s/it] 49%|████▉     | 2524/5150 [6:07:41<6:19:35,  8.67s/it] 49%|████▉     | 2525/5150 [6:07:50<6:18:46,  8.66s/it] 49%|████▉     | 2526/5150 [6:07:59<6:21:46,  8.73s/it] 49%|████▉     | 2527/5150 [6:08:08<6:20:05,  8.69s/it] 49%|████▉     | 2528/5150 [6:08:16<6:18:57,  8.67s/it] 49%|████▉     | 2529/5150 [6:08:25<6:18:09,  8.66s/it] 49%|████▉     | 2530/5150 [6:08:33<6:17:34,  8.65s/it]                                                       {'loss': '0.0002331', 'grad_norm': '0.002486', 'learning_rate': '0.0001204', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '146.9', 'tokens/total': 41451520, 'tokens/trainable': 13122622, 'epoch': '2.454'}
+ 49%|████▉     | 2530/5150 [6:08:33<6:17:34,  8.65s/it] 49%|████▉     | 2531/5150 [6:08:42<6:20:53,  8.73s/it] 49%|████▉     | 2532/5150 [6:08:51<6:19:21,  8.69s/it] 49%|████▉     | 2533/5150 [6:09:00<6:18:16,  8.67s/it] 49%|████▉     | 2534/5150 [6:09:08<6:17:24,  8.66s/it] 49%|████▉     | 2535/5150 [6:09:17<6:20:40,  8.73s/it] 49%|████▉     | 2536/5150 [6:09:26<6:19:00,  8.70s/it] 49%|████▉     | 2537/5150 [6:09:34<6:17:46,  8.67s/it] 49%|████▉     | 2538/5150 [6:09:43<6:16:50,  8.66s/it] 49%|████▉     | 2539/5150 [6:09:52<6:16:08,  8.64s/it] 49%|████▉     | 2540/5150 [6:10:01<6:19:23,  8.72s/it]                                                       {'loss': '9.843e-05', 'grad_norm': '0.0062', 'learning_rate': '0.0001198', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '137.3', 'tokens/total': 41615360, 'tokens/trainable': 13173904, 'epoch': '2.464'}
+ 49%|████▉     | 2540/5150 [6:10:01<6:19:23,  8.72s/it] 49%|████▉     | 2541/5150 [6:10:09<6:17:54,  8.69s/it] 49%|████▉     | 2542/5150 [6:10:18<6:16:48,  8.67s/it] 49%|████▉     | 2543/5150 [6:10:26<6:16:00,  8.65s/it] 49%|████▉     | 2544/5150 [6:10:35<6:19:10,  8.73s/it] 49%|████▉     | 2545/5150 [6:10:44<6:17:29,  8.69s/it] 49%|████▉     | 2546/5150 [6:10:52<6:16:19,  8.67s/it] 49%|████▉     | 2547/5150 [6:11:01<6:15:28,  8.65s/it] 49%|████▉     | 2548/5150 [6:11:10<6:14:47,  8.64s/it] 49%|████▉     | 2549/5150 [6:11:19<6:18:11,  8.72s/it] 50%|████▉     | 2550/5150 [6:11:27<6:16:46,  8.69s/it]                                                       {'loss': '0.000116', 'grad_norm': '0.0006639', 'learning_rate': '0.0001191', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '166.4', 'tokens/total': 41779200, 'tokens/trainable': 13226215, 'epoch': '2.473'}
+ 50%|████▉     | 2550/5150 [6:11:27<6:16:46,  8.69s/it] 50%|████▉     | 2551/5150 [6:11:36<6:15:38,  8.67s/it] 50%|████▉     | 2552/5150 [6:11:45<6:14:54,  8.66s/it] 50%|████▉     | 2553/5150 [6:11:53<6:14:15,  8.65s/it] 50%|████▉     | 2554/5150 [6:12:02<6:17:39,  8.73s/it] 50%|████▉     | 2555/5150 [6:12:11<6:16:08,  8.70s/it] 50%|████▉     | 2556/5150 [6:12:19<6:14:58,  8.67s/it] 50%|████▉     | 2557/5150 [6:12:28<6:14:08,  8.66s/it] 50%|████▉     | 2558/5150 [6:12:37<6:17:09,  8.73s/it] 50%|████▉     | 2559/5150 [6:12:45<6:15:33,  8.70s/it] 50%|████▉     | 2560/5150 [6:12:54<6:14:22,  8.67s/it]                                                       {'loss': '0.0002122', 'grad_norm': '0.0002682', 'learning_rate': '0.0001184', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '139.7', 'tokens/total': 41943040, 'tokens/trainable': 13278055, 'epoch': '2.483'}
+ 50%|████▉     | 2560/5150 [6:12:54<6:14:22,  8.67s/it] 50%|████▉     | 2561/5150 [6:13:03<6:13:30,  8.66s/it] 50%|████▉     | 2562/5150 [6:13:11<6:12:52,  8.64s/it] 50%|████▉     | 2563/5150 [6:13:20<6:16:11,  8.72s/it] 50%|████▉     | 2564/5150 [6:13:29<6:14:38,  8.69s/it] 50%|████▉     | 2565/5150 [6:13:37<6:13:32,  8.67s/it] 50%|████▉     | 2566/5150 [6:13:46<6:12:40,  8.65s/it] 50%|████▉     | 2567/5150 [6:13:55<6:15:46,  8.73s/it] 50%|████▉     | 2568/5150 [6:14:04<6:14:12,  8.70s/it] 50%|████▉     | 2569/5150 [6:14:12<6:13:02,  8.67s/it] 50%|████▉     | 2570/5150 [6:14:21<6:12:11,  8.66s/it]                                                       {'loss': '0.0001536', 'grad_norm': '0.003576', 'learning_rate': '0.0001178', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '144.6', 'tokens/total': 42106880, 'tokens/trainable': 13329444, 'epoch': '2.493'}
+ 50%|████▉     | 2570/5150 [6:14:21<6:12:11,  8.66s/it] 50%|████▉     | 2571/5150 [6:14:29<6:11:35,  8.65s/it] 50%|████▉     | 2572/5150 [6:14:38<6:15:02,  8.73s/it] 50%|████▉     | 2573/5150 [6:14:47<6:13:28,  8.70s/it] 50%|████▉     | 2574/5150 [6:14:56<6:12:19,  8.67s/it] 50%|█████     | 2575/5150 [6:15:04<6:11:27,  8.66s/it][2026-03-05 09:47:44,854] [INFO] [axolotl.core.trainers.base.evaluate:400] [PID:1482537] Running evaluation step...
+[2026-03-05 09:47:46,186] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.779442548751831
+[2026-03-05 09:47:46,904] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.7176523208618164
+[2026-03-05 09:47:47,612] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.7074887752532959
+[2026-03-05 09:47:48,336] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.7235386371612549
+[2026-03-05 09:47:48,337] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:1482537] gather_len_batches: [17]
+
+  0%|          | 0/17 [00:00<?, ?it/s][A
+ 12%|█▏        | 2/17 [00:00<00:04,  3.25it/s][A
+ 18%|█▊        | 3/17 [00:01<00:06,  2.29it/s][A
+ 24%|██▎       | 4/17 [00:01<00:06,  1.98it/s][A
+ 29%|██▉       | 5/17 [00:03<00:08,  1.37it/s][A
+ 35%|███▌      | 6/17 [00:03<00:07,  1.45it/s][A
+ 41%|████      | 7/17 [00:04<00:06,  1.50it/s][A
+ 47%|████▋     | 8/17 [00:04<00:05,  1.54it/s][A
+ 53%|█████▎    | 9/17 [00:05<00:05,  1.48it/s][A
+ 59%|█████▉    | 10/17 [00:06<00:04,  1.53it/s][A
+ 65%|██████▍   | 11/17 [00:06<00:03,  1.55it/s][A
+ 71%|███████   | 12/17 [00:07<00:03,  1.57it/s][A
+ 76%|███████▋  | 13/17 [00:08<00:02,  1.38it/s][A
+ 82%|████████▏ | 14/17 [00:08<00:02,  1.45it/s][A
+ 88%|████████▊ | 15/17 [00:09<00:01,  1.50it/s][A
+ 94%|█████████▍| 16/17 [00:10<00:00,  1.53it/s][ATraceback (most recent call last):
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 300, in _run_finalizers
+    finalizer()
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 224, in __call__
+    res = self._callback(*self._args, **self._kwargs)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 133, in _remove_temp_dir
+    rmtree(tempdir)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 725, in rmtree
+    _rmtree_safe_fd(fd, path, onerror)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 681, in _rmtree_safe_fd
+    onerror(os.unlink, fullname, sys.exc_info())
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 679, in _rmtree_safe_fd
+    os.unlink(entry.name, dir_fd=topfd)
+OSError: [Errno 16] Device or resource busy: '.nfs0000000000085676000060df'
+
+100%|██████████| 17/17 [00:11<00:00,  1.38it/s][A                                                       
+                                               [A{'eval_loss': '0.0001705', 'eval_runtime': '12.71', 'eval_samples_per_second': '15.74', 'eval_steps_per_second': '7.87', 'eval_ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'epoch': '2.498', 'tokens/train_per_sec_per_gpu': '145.5'}
+ 50%|█████     | 2575/5150 [6:15:20<6:11:27,  8.66s/it]
+100%|██████████| 17/17 [00:11<00:00,  1.38it/s][A
+                                               [A 50%|█████     | 2576/5150 [6:15:29<9:41:46, 13.56s/it] 50%|█████     | 2577/5150 [6:15:38<8:38:12, 12.08s/it] 50%|█████     | 2578/5150 [6:15:46<7:53:40, 11.05s/it] 50%|█████     | 2579/5150 [6:15:55<7:22:30, 10.33s/it] 50%|███��█     | 2580/5150 [6:16:04<7:07:18,  9.98s/it]                                                       {'loss': '0.0005379', 'grad_norm': '0.009692', 'learning_rate': '0.0001171', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '148.5', 'tokens/total': 42270720, 'tokens/trainable': 13380836, 'epoch': '2.502'}
+ 50%|█████     | 2580/5150 [6:16:04<7:07:18,  9.98s/it] 50%|█████     | 2581/5150 [6:16:13<6:50:02,  9.58s/it] 50%|█████     | 2582/5150 [6:16:22<6:37:52,  9.30s/it] 50%|█████     | 2583/5150 [6:16:30<6:29:13,  9.10s/it] 50%|█████     | 2584/5150 [6:16:39<6:29:06,  9.10s/it] 50%|█████     | 2585/5150 [6:16:48<6:23:01,  8.96s/it] 50%|█████     | 2586/5150 [6:16:57<6:18:49,  8.86s/it] 50%|█████     | 2587/5150 [6:17:05<6:15:44,  8.80s/it] 50%|█████     | 2588/5150 [6:17:14<6:13:34,  8.75s/it] 50%|█████     | 2589/5150 [6:17:23<6:17:41,  8.85s/it] 50%|█████     | 2590/5150 [6:17:32<6:14:52,  8.79s/it]                                                       {'loss': '0.0003084', 'grad_norm': '0.001211', 'learning_rate': '0.0001164', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '170.2', 'tokens/total': 42434560, 'tokens/trainable': 13433142, 'epoch': '2.512'}
+ 50%|█████     | 2590/5150 [6:17:32<6:14:52,  8.79s/it] 50%|█████     | 2591/5150 [6:17:40<6:13:01,  8.75s/it] 50%|█████     | 2592/5150 [6:17:49<6:11:31,  8.71s/it] 50%|█████     | 2593/5150 [6:17:58<6:16:10,  8.83s/it] 50%|█████     | 2594/5150 [6:18:07<6:13:36,  8.77s/it] 50%|█████     | 2595/5150 [6:18:15<6:11:50,  8.73s/it] 50%|█████     | 2596/5150 [6:18:24<6:10:31,  8.70s/it] 50%|█████     | 2597/5150 [6:18:33<6:09:32,  8.68s/it] 50%|█████     | 2598/5150 [6:18:42<6:14:51,  8.81s/it] 50%|█████     | 2599/5150 [6:18:50<6:12:34,  8.76s/it] 50%|█████     | 2600/5150 [6:18:59<6:10:55,  8.73s/it]                                                       {'loss': '0.0002281', 'grad_norm': '0.0207', 'learning_rate': '0.0001158', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '139.1', 'tokens/total': 42598400, 'tokens/trainable': 13484603, 'epoch': '2.522'}
+ 50%|█████     | 2600/5150 [6:18:59<6:10:55,  8.73s/it] 51%|█████     | 2601/5150 [6:19:08<6:09:41,  8.70s/it] 51%|█████     | 2602/5150 [6:19:17<6:15:10,  8.83s/it] 51%|█████     | 2603/5150 [6:19:25<6:12:50,  8.78s/it] 51%|█████     | 2604/5150 [6:19:34<6:10:59,  8.74s/it] 51%|█████     | 2605/5150 [6:19:43<6:09:39,  8.71s/it] 51%|█████     | 2606/5150 [6:19:51<6:08:37,  8.69s/it] 51%|█████     | 2607/5150 [6:20:00<6:13:39,  8.82s/it] 51%|█████     | 2608/5150 [6:20:09<6:11:17,  8.76s/it] 51%|█████     | 2609/5150 [6:20:18<6:09:36,  8.73s/it] 51%|█████     | 2610/5150 [6:20:26<6:08:19,  8.70s/it]                                                       {'loss': '0.000231', 'grad_norm': '0.0003991', 'learning_rate': '0.0001151', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '145.6', 'tokens/total': 42762240, 'tokens/trainable': 13536411, 'epoch': '2.532'}
+ 51%|█████     | 2610/5150 [6:20:26<6:08:19,  8.70s/it] 51%|█████     | 2611/5150 [6:20:35<6:13:32,  8.83s/it] 51%|█████     | 2612/5150 [6:20:44<6:11:01,  8.77s/it] 51%|█████     | 2613/5150 [6:20:53<6:09:14,  8.73s/it] 51%|█████     | 2614/5150 [6:21:01<6:07:55,  8.70s/it] 51%|█████     | 2615/5150 [6:21:10<6:07:04,  8.69s/it] 51%|█████     | 2616/5150 [6:21:19<6:12:28,  8.82s/it] 51%|█████     | 2617/5150 [6:21:28<6:10:11,  8.77s/it] 51%|█████     | 2618/5150 [6:21:36<6:08:35,  8.73s/it] 51%|█████     | 2619/5150 [6:21:45<6:07:39,  8.72s/it] 51%|█████     | 2620/5150 [6:21:54<6:12:30,  8.83s/it]                                                       {'loss': '0.0003298', 'grad_norm': '0.02609', 'learning_rate': '0.0001144', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '133.3', 'tokens/total': 42926080, 'tokens/trainable': 13588198, 'epoch': '2.541'}
+ 51%|█████     | 2620/5150 [6:21:54<6:12:30,  8.83s/it] 51%|█████     | 2621/5150 [6:22:03<6:10:05,  8.78s/it] 51%|█████     | 2622/5150 [6:22:12<6:08:15,  8.74s/it] 51%|█████     | 2623/5150 [6:22:20<6:06:50,  8.71s/it] 51%|█████     | 2624/5150 [6:22:29<6:05:55,  8.69s/it] 51%|█████     | 2625/5150 [6:22:38<6:11:12,  8.82s/it] 51%|█████     | 2626/5150 [6:22:47<6:08:57,  8.77s/it] 51%|█████     | 2627/5150 [6:22:55<6:07:17,  8.73s/it] 51%|█████     | 2628/5150 [6:23:04<6:05:56,  8.71s/it] 51%|█████     | 2629/5150 [6:23:13<6:10:41,  8.82s/it] 51%|█████     | 2630/5150 [6:23:22<6:08:13,  8.77s/it]                                                       {'loss': '0.0002059', 'grad_norm': '0.009643', 'learning_rate': '0.0001137', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '149.9', 'tokens/total': 43089920, 'tokens/trainable': 13639920, 'epoch': '2.551'}
+ 51%|█████     | 2630/5150 [6:23:22<6:08:13,  8.77s/it] 51%|█████     | 2631/5150 [6:23:30<6:06:33,  8.73s/it] 51%|█████     | 2632/5150 [6:23:39<6:05:21,  8.71s/it] 51%|█████     | 2633/5150 [6:23:48<6:04:28,  8.69s/it] 51%|█████     | 2634/5150 [6:23:57<6:09:39,  8.82s/it] 51%|█████     | 2635/5150 [6:24:05<6:07:24,  8.77s/it] 51%|█████     | 2636/5150 [6:24:14<6:05:48,  8.73s/it] 51%|█████     | 2637/5150 [6:24:23<6:04:35,  8.70s/it] 51%|█████     | 2638/5150 [6:24:32<6:10:02,  8.84s/it] 51%|█████     | 2639/5150 [6:24:40<6:07:21,  8.78s/it] 51%|█████▏    | 2640/5150 [6:24:49<6:05:36,  8.74s/it]                                                       {'loss': '0.0002883', 'grad_norm': '0.01544', 'learning_rate': '0.0001131', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '138.7', 'tokens/total': 43253760, 'tokens/trainable': 13691852, 'epoch': '2.561'}
+ 51%|█████▏    | 2640/5150 [6:24:49<6:05:36,  8.74s/it] 51%|█████▏    | 2641/5150 [6:24:58<6:04:22,  8.71s/it] 51%|█████▏    | 2642/5150 [6:25:06<6:03:25,  8.69s/it] 51%|█████▏    | 2643/5150 [6:25:15<6:08:28,  8.82s/it] 51%|█████▏    | 2644/5150 [6:25:24<6:06:17,  8.77s/it] 51%|█████▏    | 2645/5150 [6:25:33<6:04:34,  8.73s/it] 51%|█████▏    | 2646/5150 [6:25:41<6:03:21,  8.71s/it] 51%|█████▏    | 2647/5150 [6:25:51<6:08:30,  8.83s/it] 51%|█████▏    | 2648/5150 [6:25:59<6:06:02,  8.78s/it] 51%|█████▏    | 2649/5150 [6:26:08<6:04:19,  8.74s/it] 51%|█████▏    | 2650/5150 [6:26:17<6:03:03,  8.71s/it]                                                       {'loss': '0.0001756', 'grad_norm': '0.0148', 'learning_rate': '0.0001124', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '154.8', 'tokens/total': 43417600, 'tokens/trainable': 13744089, 'epoch': '2.57'}
+ 51%|█████▏    | 2650/5150 [6:26:17<6:03:03,  8.71s/it] 51%|█████▏    | 2651/5150 [6:26:25<6:02:06,  8.69s/it] 51%|█████▏    | 2652/5150 [6:26:34<6:07:17,  8.82s/it] 52%|█████▏    | 2653/5150 [6:26:43<6:05:00,  8.77s/it] 52%|█████▏    | 2654/5150 [6:26:52<6:03:21,  8.73s/it] 52%|█████▏    | 2655/5150 [6:27:00<6:02:11,  8.71s/it] 52%|█████▏    | 2656/5150 [6:27:09<6:07:30,  8.84s/it] 52%|█████▏    | 2657/5150 [6:27:18<6:05:01,  8.79s/it] 52%|█████▏    | 2658/5150 [6:27:27<6:03:08,  8.74s/it] 52%|█████▏    | 2659/5150 [6:27:35<6:01:56,  8.72s/it] 52%|█████▏    | 2660/5150 [6:27:44<6:00:57,  8.70s/it]                                                       {'loss': '0.0003092', 'grad_norm': '0.002641', 'learning_rate': '0.0001117', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '144.9', 'tokens/total': 43581440, 'tokens/trainable': 13795903, 'epoch': '2.58'}
+ 52%|█████▏    | 2660/5150 [6:27:44<6:00:57,  8.70s/it] 52%|█████▏    | 2661/5150 [6:27:53<6:06:01,  8.82s/it] 52%|█████▏    | 2662/5150 [6:28:02<6:03:42,  8.77s/it] 52%|█████▏    | 2663/5150 [6:28:10<6:02:06,  8.74s/it] 52%|█████▏    | 2664/5150 [6:28:19<6:00:54,  8.71s/it] 52%|█████▏    | 2665/5150 [6:28:28<6:05:40,  8.83s/it] 52%|█████▏    | 2666/5150 [6:28:37<6:03:13,  8.77s/it] 52%|█████▏    | 2667/5150 [6:28:45<6:01:33,  8.74s/it] 52%|█████▏    | 2668/5150 [6:28:54<6:00:20,  8.71s/it] 52%|█████▏    | 2669/5150 [6:29:03<5:59:28,  8.69s/it] 52%|█████▏    | 2670/5150 [6:29:12<6:05:14,  8.84s/it]                                                       {'loss': '0.0001417', 'grad_norm': '0.01205', 'learning_rate': '0.0001111', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '156.6', 'tokens/total': 43745280, 'tokens/trainable': 13848217, 'epoch': '2.59'}
+ 52%|█████▏    | 2670/5150 [6:29:12<6:05:14,  8.84s/it] 52%|█████▏    | 2671/5150 [6:29:21<6:02:52,  8.78s/it] 52%|█████▏    | 2672/5150 [6:29:29<6:01:13,  8.75s/it] 52%|█████▏    | 2673/5150 [6:29:38<5:59:55,  8.72s/it] 52%|█████▏    | 2674/5150 [6:29:47<5:59:08,  8.70s/it] 52%|█████▏    | 2675/5150 [6:29:56<6:04:23,  8.83s/it] 52%|█████▏    | 2676/5150 [6:30:04<6:02:05,  8.78s/it] 52%|█████▏    | 2677/5150 [6:30:13<6:00:20,  8.74s/it] 52%|█████▏    | 2678/5150 [6:30:22<5:58:58,  8.71s/it] 52%|█████▏    | 2679/5150 [6:30:31<6:03:34,  8.83s/it] 52%|█████▏    | 2680/5150 [6:30:39<6:01:15,  8.78s/it]                                                       {'loss': '0.0001684', 'grad_norm': '0.002381', 'learning_rate': '0.0001104', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '147.2', 'tokens/total': 43909120, 'tokens/trainable': 13899969, 'epoch': '2.599'}
+ 52%|█████▏    | 2680/5150 [6:30:39<6:01:15,  8.78s/it] 52%|█████▏    | 2681/5150 [6:30:48<5:59:39,  8.74s/it] 52%|█████▏    | 2682/5150 [6:30:57<5:58:28,  8.72s/it] 52%|█████▏    | 2683/5150 [6:31:06<6:03:33,  8.84s/it] 52%|█████▏    | 2684/5150 [6:31:15<6:01:01,  8.78s/it] 52%|█████▏    | 2685/5150 [6:31:23<5:59:09,  8.74s/it] 52%|█████▏    | 2686/5150 [6:31:32<5:57:51,  8.71s/it] 52%|█████▏    | 2687/5150 [6:31:40<5:56:56,  8.70s/it] 52%|█████▏    | 2688/5150 [6:31:50<6:01:58,  8.82s/it] 52%|█████▏    | 2689/5150 [6:31:58<5:59:42,  8.77s/it] 52%|█████▏    | 2690/5150 [6:32:07<5:58:02,  8.73s/it]                                                       {'loss': '0.0003499', 'grad_norm': '0.005617', 'learning_rate': '0.0001097', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '142.7', 'tokens/total': 44072960, 'tokens/trainable': 13951827, 'epoch': '2.609'}
+ 52%|█████▏    | 2690/5150 [6:32:07<5:58:02,  8.73s/it] 52%|█████▏    | 2691/5150 [6:32:16<5:56:58,  8.71s/it] 52%|█████▏    | 2692/5150 [6:32:24<5:56:07,  8.69s/it] 52%|█████▏    | 2693/5150 [6:32:33<6:01:07,  8.82s/it] 52%|█████▏    | 2694/5150 [6:32:42<5:58:53,  8.77s/it] 52%|█████▏    | 2695/5150 [6:32:51<5:57:17,  8.73s/it] 52%|█████▏    | 2696/5150 [6:32:59<5:56:11,  8.71s/it] 52%|█████▏    | 2697/5150 [6:33:08<6:01:17,  8.84s/it] 52%|█████▏    | 2698/5150 [6:33:17<5:58:50,  8.78s/it] 52%|█████▏    | 2699/5150 [6:33:26<5:57:02,  8.74s/it] 52%|█████▏    | 2700/5150 [6:33:34<5:55:53,  8.72s/it]                                                       {'loss': '0.0002154', 'grad_norm': '0.001776', 'learning_rate': '0.000109', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '147.6', 'tokens/total': 44236800, 'tokens/trainable': 14003607, 'epoch': '2.619'}
+ 52%|█████▏    | 2700/5150 [6:33:34<5:55:53,  8.72s/it] 52%|█████▏    | 2701/5150 [6:33:43<5:55:00,  8.70s/it] 52%|█████▏    | 2702/5150 [6:33:52<6:00:20,  8.83s/it] 52%|█████▏    | 2703/5150 [6:34:01<5:57:56,  8.78s/it] 53%|█████▎    | 2704/5150 [6:34:09<5:56:20,  8.74s/it] 53%|█████▎    | 2705/5150 [6:34:18<5:55:06,  8.71s/it] 53%|█████▎    | 2706/5150 [6:34:27<5:59:59,  8.84s/it] 53%|█████▎    | 2707/5150 [6:34:36<5:57:29,  8.78s/it] 53%|█████▎    | 2708/5150 [6:34:45<5:55:48,  8.74s/it] 53%|█████▎    | 2709/5150 [6:34:53<5:54:34,  8.72s/it] 53%|█████▎    | 2710/5150 [6:35:02<5:53:38,  8.70s/it]                                                       {'loss': '0.0001686', 'grad_norm': '0.04171', 'learning_rate': '0.0001084', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '157.8', 'tokens/total': 44400640, 'tokens/trainable': 14055439, 'epoch': '2.629'}
+ 53%|█████▎    | 2710/5150 [6:35:02<5:53:38,  8.70s/it] 53%|█████▎    | 2711/5150 [6:35:11<5:58:47,  8.83s/it] 53%|█████▎    | 2712/5150 [6:35:20<5:56:25,  8.77s/it] 53%|█████▎    | 2713/5150 [6:35:28<5:54:47,  8.74s/it] 53%|█████▎    | 2714/5150 [6:35:37<5:53:36,  8.71s/it] 53%|█████▎    | 2715/5150 [6:35:46<5:58:22,  8.83s/it] 53%|█████▎    | 2716/5150 [6:35:55<5:56:01,  8.78s/it] 53%|█████▎    | 2717/5150 [6:36:03<5:54:22,  8.74s/it] 53%|█████▎    | 2718/5150 [6:36:12<5:53:10,  8.71s/it] 53%|█████▎    | 2719/5150 [6:36:21<5:52:18,  8.70s/it] 53%|█████▎    | 2720/5150 [6:36:30<5:56:39,  8.81s/it]                                                       {'loss': '0.0001966', 'grad_norm': '0.0004194', 'learning_rate': '0.0001077', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '143.4', 'tokens/total': 44564480, 'tokens/trainable': 14107210, 'epoch': '2.638'}
+ 53%|█████▎    | 2720/5150 [6:36:30<5:56:39,  8.81s/it] 53%|█████▎    | 2721/5150 [6:36:38<5:54:38,  8.76s/it] 53%|█████▎    | 2722/5150 [6:36:47<5:53:13,  8.73s/it] 53%|█████▎    | 2723/5150 [6:36:56<5:52:10,  8.71s/it] 53%|█████▎    | 2724/5150 [6:37:05<5:57:06,  8.83s/it] 53%|█████▎    | 2725/5150 [6:37:13<5:54:48,  8.78s/it] 53%|█████▎    | 2726/5150 [6:37:22<5:53:09,  8.74s/it] 53%|█████▎    | 2727/5150 [6:37:31<5:51:52,  8.71s/it] 53%|█████▎    | 2728/5150 [6:37:39<5:51:01,  8.70s/it] 53%|█████▎    | 2729/5150 [6:37:48<5:55:30,  8.81s/it] 53%|█████▎    | 2730/5150 [6:37:57<5:53:29,  8.76s/it]                                                       {'loss': '0.0002583', 'grad_norm': '0.003622', 'learning_rate': '0.000107', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '155.3', 'tokens/total': 44728320, 'tokens/trainable': 14158545, 'epoch': '2.648'}
+ 53%|█████▎    | 2730/5150 [6:37:57<5:53:29,  8.76s/it] 53%|█████▎    | 2731/5150 [6:38:06<5:52:01,  8.73s/it] 53%|█████▎    | 2732/5150 [6:38:14<5:51:02,  8.71s/it] 53%|█████▎    | 2733/5150 [6:38:24<5:55:49,  8.83s/it] 53%|█████▎    | 2734/5150 [6:38:32<5:53:29,  8.78s/it] 53%|█████▎    | 2735/5150 [6:38:41<5:51:47,  8.74s/it] 53%|█████▎    | 2736/5150 [6:38:50<5:50:35,  8.71s/it] 53%|█████▎    | 2737/5150 [6:38:58<5:49:40,  8.69s/it] 53%|█████▎    | 2738/5150 [6:39:07<5:54:38,  8.82s/it] 53%|█████▎    | 2739/5150 [6:39:16<5:52:27,  8.77s/it] 53%|█████▎    | 2740/5150 [6:39:25<5:50:56,  8.74s/it]                                                       {'loss': '0.000365', 'grad_norm': '0.1727', 'learning_rate': '0.0001063', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '154.2', 'tokens/total': 44892160, 'tokens/trainable': 14210612, 'epoch': '2.658'}
+ 53%|█████▎    | 2740/5150 [6:39:25<5:50:56,  8.74s/it] 53%|█████▎    | 2741/5150 [6:39:33<5:49:56,  8.72s/it] 53%|█████▎    | 2742/5150 [6:39:42<5:49:04,  8.70s/it] 53%|█████▎    | 2743/5150 [6:39:51<5:53:56,  8.82s/it] 53%|█████▎    | 2744/5150 [6:40:00<5:51:42,  8.77s/it] 53%|█████▎    | 2745/5150 [6:40:08<5:50:08,  8.74s/it] 53%|█████▎    | 2746/5150 [6:40:17<5:48:58,  8.71s/it] 53%|█████▎    | 2747/5150 [6:40:26<5:52:59,  8.81s/it] 53%|█████▎    | 2748/5150 [6:40:35<5:51:01,  8.77s/it] 53%|█████▎    | 2749/5150 [6:40:43<5:49:44,  8.74s/it] 53%|█████▎    | 2750/5150 [6:40:52<5:48:42,  8.72s/it]                                                       {'loss': '0.0006824', 'grad_norm': '0.003911', 'learning_rate': '0.0001057', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '150.8', 'tokens/total': 45056000, 'tokens/trainable': 14262524, 'epoch': '2.667'}
+ 53%|█████▎    | 2750/5150 [6:40:52<5:48:42,  8.72s/it] 53%|█████▎    | 2751/5150 [6:41:01<5:47:57,  8.70s/it] 53%|█████▎    | 2752/5150 [6:41:10<5:53:18,  8.84s/it] 53%|█████▎    | 2753/5150 [6:41:19<5:51:22,  8.80s/it] 53%|█████▎    | 2754/5150 [6:41:27<5:49:53,  8.76s/it] 53%|█████▎    | 2755/5150 [6:41:36<5:48:46,  8.74s/it] 54%|█████▎    | 2756/5150 [6:41:45<5:53:06,  8.85s/it] 54%|█████▎    | 2757/5150 [6:41:54<5:50:42,  8.79s/it] 54%|█████▎    | 2758/5150 [6:42:02<5:49:21,  8.76s/it] 54%|█████▎    | 2759/5150 [6:42:11<5:48:02,  8.73s/it] 54%|█████▎    | 2760/5150 [6:42:20<5:52:58,  8.86s/it]                                                       {'loss': '0.0002824', 'grad_norm': '0.011', 'learning_rate': '0.000105', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '138.8', 'tokens/total': 45219840, 'tokens/trainable': 14314390, 'epoch': '2.677'}
+ 54%|█████▎    | 2760/5150 [6:42:20<5:52:58,  8.86s/it] 54%|█████▎    | 2761/5150 [6:42:29<5:50:24,  8.80s/it] 54%|█████▎    | 2762/5150 [6:42:38<5:48:33,  8.76s/it] 54%|█████▎    | 2763/5150 [6:42:46<5:47:14,  8.73s/it] 54%|█████▎    | 2764/5150 [6:42:55<5:46:12,  8.71s/it] 54%|█████▎    | 2765/5150 [6:43:04<5:50:41,  8.82s/it] 54%|█████▎    | 2766/5150 [6:43:13<5:48:26,  8.77s/it] 54%|█████▎    | 2767/5150 [6:43:21<5:46:58,  8.74s/it] 54%|█████▎    | 2768/5150 [6:43:30<5:45:51,  8.71s/it] 54%|█████▍    | 2769/5150 [6:43:39<5:50:43,  8.84s/it] 54%|█████▍    | 2770/5150 [6:43:48<5:48:13,  8.78s/it]                                                       {'loss': '7.123e-05', 'grad_norm': '0.001954', 'learning_rate': '0.0001043', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '140', 'tokens/total': 45383680, 'tokens/trainable': 14365800, 'epoch': '2.687'}
+ 54%|█████▍    | 2770/5150 [6:43:48<5:48:13,  8.78s/it] 54%|█████▍    | 2771/5150 [6:43:56<5:46:40,  8.74s/it] 54%|█████▍    | 2772/5150 [6:44:05<5:45:35,  8.72s/it] 54%|█████▍    | 2773/5150 [6:44:14<5:44:36,  8.70s/it] 54%|█████▍    | 2774/5150 [6:44:23<5:49:45,  8.83s/it] 54%|█████▍    | 2775/5150 [6:44:31<5:47:30,  8.78s/it] 54%|█████▍    | 2776/5150 [6:44:40<5:45:50,  8.74s/it] 54%|█████▍    | 2777/5150 [6:44:49<5:44:26,  8.71s/it] 54%|█████▍    | 2778/5150 [6:44:57<5:43:37,  8.69s/it] 54%|█████▍    | 2779/5150 [6:45:06<5:48:03,  8.81s/it] 54%|█████▍    | 2780/5150 [6:45:15<5:46:01,  8.76s/it]                                                       {'loss': '0.0001643', 'grad_norm': '0.02175', 'learning_rate': '0.0001036', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '150.1', 'tokens/total': 45547520, 'tokens/trainable': 14418065, 'epoch': '2.696'}
+ 54%|█████▍    | 2780/5150 [6:45:15<5:46:01,  8.76s/it] 54%|█████▍    | 2781/5150 [6:45:24<5:44:32,  8.73s/it] 54%|█████▍    | 2782/5150 [6:45:32<5:43:25,  8.70s/it] 54%|█████▍    | 2783/5150 [6:45:41<5:47:45,  8.82s/it] 54%|█████▍    | 2784/5150 [6:45:50<5:45:39,  8.77s/it] 54%|█████▍    | 2785/5150 [6:45:59<5:44:14,  8.73s/it] 54%|█████▍    | 2786/5150 [6:46:07<5:43:16,  8.71s/it] 54%|█████▍    | 2787/5150 [6:46:16<5:42:34,  8.70s/it] 54%|█████▍    | 2788/5150 [6:46:25<5:47:31,  8.83s/it] 54%|█████▍    | 2789/5150 [6:46:34<5:45:14,  8.77s/it] 54%|█████▍    | 2790/5150 [6:46:43<5:43:37,  8.74s/it]                                                       {'loss': '0.0001387', 'grad_norm': '0.01617', 'learning_rate': '0.0001029', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '146.7', 'tokens/total': 45711360, 'tokens/trainable': 14470258, 'epoch': '2.706'}
+ 54%|█████▍    | 2790/5150 [6:46:43<5:43:37,  8.74s/it] 54%|█████▍    | 2791/5150 [6:46:51<5:42:28,  8.71s/it] 54%|█████▍    | 2792/5150 [6:47:00<5:46:20,  8.81s/it] 54%|█████▍    | 2793/5150 [6:47:09<5:44:16,  8.76s/it] 54%|█████▍    | 2794/5150 [6:47:18<5:42:38,  8.73s/it] 54%|█████▍    | 2795/5150 [6:47:26<5:41:39,  8.70s/it] 54%|█████▍    | 2796/5150 [6:47:35<5:40:45,  8.69s/it] 54%|█████▍    | 2797/5150 [6:47:44<5:45:20,  8.81s/it] 54%|█████▍    | 2798/5150 [6:47:53<5:43:13,  8.76s/it] 54%|█████▍    | 2799/5150 [6:48:01<5:41:56,  8.73s/it] 54%|█████▍    | 2800/5150 [6:48:10<5:40:51,  8.70s/it]                                                       {'loss': '0.0001202', 'grad_norm': '0.01221', 'learning_rate': '0.0001023', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '166', 'tokens/total': 45875200, 'tokens/trainable': 14521692, 'epoch': '2.716'}
+ 54%|█████▍    | 2800/5150 [6:48:10<5:40:51,  8.70s/it] 54%|█████▍    | 2801/5150 [6:48:19<5:45:12,  8.82s/it] 54%|█████▍    | 2802/5150 [6:48:28<5:43:02,  8.77s/it] 54%|█████▍    | 2803/5150 [6:48:36<5:41:30,  8.73s/it] 54%|█████▍    | 2804/5150 [6:48:45<5:40:26,  8.71s/it] 54%|█████▍    | 2805/5150 [6:48:54<5:39:38,  8.69s/it] 54%|█████▍    | 2806/5150 [6:49:03<5:44:15,  8.81s/it] 55%|█████▍    | 2807/5150 [6:49:11<5:42:10,  8.76s/it] 55%|█████▍    | 2808/5150 [6:49:20<5:40:41,  8.73s/it] 55%|█████▍    | 2809/5150 [6:49:29<5:39:37,  8.70s/it] 55%|█████▍    | 2810/5150 [6:49:38<5:44:06,  8.82s/it]                                                       {'loss': '0.0004308', 'grad_norm': '0.001163', 'learning_rate': '0.0001016', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '138.3', 'tokens/total': 46039040, 'tokens/trainable': 14573534, 'epoch': '2.726'}
+ 55%|█████▍    | 2810/5150 [6:49:38<5:44:06,  8.82s/it] 55%|█████▍    | 2811/5150 [6:49:46<5:42:00,  8.77s/it] 55%|█████▍    | 2812/5150 [6:49:55<5:40:28,  8.74s/it] 55%|█████▍    | 2813/5150 [6:50:04<5:39:20,  8.71s/it] 55%|█████▍    | 2814/5150 [6:50:12<5:38:32,  8.70s/it] 55%|█████▍    | 2815/5150 [6:50:21<5:43:16,  8.82s/it] 55%|█████▍    | 2816/5150 [6:50:30<5:41:07,  8.77s/it] 55%|█████▍    | 2817/5150 [6:50:39<5:39:35,  8.73s/it] 55%|█████▍    | 2818/5150 [6:50:47<5:38:27,  8.71s/it] 55%|█████▍    | 2819/5150 [6:50:56<5:42:59,  8.83s/it] 55%|█████▍    | 2820/5150 [6:51:05<5:40:41,  8.77s/it]                                                       {'loss': '0.000132', 'grad_norm': '0.008373', 'learning_rate': '0.0001009', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '142.7', 'tokens/total': 46202880, 'tokens/trainable': 14625211, 'epoch': '2.735'}
+ 55%|█████▍    | 2820/5150 [6:51:05<5:40:41,  8.77s/it] 55%|█████▍    | 2821/5150 [6:51:14<5:39:05,  8.74s/it] 55%|█████▍    | 2822/5150 [6:51:22<5:37:58,  8.71s/it] 55%|█████▍    | 2823/5150 [6:51:31<5:37:11,  8.69s/it] 55%|█████▍    | 2824/5150 [6:51:40<5:42:11,  8.83s/it] 55%|█████▍    | 2825/5150 [6:51:49<5:39:59,  8.77s/it] 55%|█████▍    | 2826/5150 [6:51:58<5:38:23,  8.74s/it] 55%|█████▍    | 2827/5150 [6:52:06<5:37:19,  8.71s/it] 55%|█████▍    | 2828/5150 [6:52:15<5:41:50,  8.83s/it] 55%|█████▍    | 2829/5150 [6:52:24<5:39:42,  8.78s/it] 55%|█████▍    | 2830/5150 [6:52:33<5:38:09,  8.75s/it]                                                       {'loss': '7.653e-05', 'grad_norm': '0.0003483', 'learning_rate': '0.0001002', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '146.9', 'tokens/total': 46366720, 'tokens/trainable': 14677405, 'epoch': '2.745'}
+ 55%|█████▍    | 2830/5150 [6:52:33<5:38:09,  8.75s/it] 55%|█████▍    | 2831/5150 [6:52:41<5:36:57,  8.72s/it] 55%|█████▍    | 2832/5150 [6:52:50<5:36:16,  8.70s/it] 55%|█████▌    | 2833/5150 [6:52:59<5:41:07,  8.83s/it] 55%|█████▌    | 2834/5150 [6:53:08<5:39:06,  8.79s/it] 55%|█████▌    | 2835/5150 [6:53:16<5:37:29,  8.75s/it] 55%|█████▌    | 2836/5150 [6:53:25<5:36:16,  8.72s/it] 55%|█████▌    | 2837/5150 [6:53:34<5:40:48,  8.84s/it] 55%|█████▌    | 2838/5150 [6:53:43<5:38:23,  8.78s/it] 55%|█████▌    | 2839/5150 [6:53:51<5:36:44,  8.74s/it] 55%|█████▌    | 2840/5150 [6:54:00<5:35:30,  8.71s/it]                                                       {'loss': '0.0001083', 'grad_norm': '0.001942', 'learning_rate': '9.956e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '146.2', 'tokens/total': 46530560, 'tokens/trainable': 14729148, 'epoch': '2.755'}
+ 55%|█████▌    | 2840/5150 [6:54:00<5:35:30,  8.71s/it] 55%|█████▌    | 2841/5150 [6:54:09<5:34:41,  8.70s/it] 55%|█████▌    | 2842/5150 [6:54:18<5:39:35,  8.83s/it] 55%|█████▌    | 2843/5150 [6:54:27<5:37:21,  8.77s/it] 55%|█████▌    | 2844/5150 [6:54:35<5:35:46,  8.74s/it] 55%|█████▌    | 2845/5150 [6:54:44<5:34:36,  8.71s/it] 55%|█████▌    | 2846/5150 [6:54:53<5:38:34,  8.82s/it] 55%|█████▌    | 2847/5150 [6:55:02<5:36:30,  8.77s/it] 55%|█████▌    | 2848/5150 [6:55:10<5:35:03,  8.73s/it] 55%|█████▌    | 2849/5150 [6:55:19<5:33:56,  8.71s/it] 55%|█████▌    | 2850/5150 [6:55:28<5:33:07,  8.69s/it]                                                       {'loss': '8.361e-05', 'grad_norm': '0.001651', 'learning_rate': '9.888e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '148.4', 'tokens/total': 46694400, 'tokens/trainable': 14780572, 'epoch': '2.764'}
+ 55%|█████▌    | 2850/5150 [6:55:28<5:33:07,  8.69s/it] 55%|█████▌    | 2851/5150 [6:55:37<5:37:45,  8.81s/it] 55%|█████▌    | 2852/5150 [6:55:45<5:35:39,  8.76s/it] 55%|█████▌    | 2853/5150 [6:55:54<5:34:03,  8.73s/it] 55%|█████▌    | 2854/5150 [6:56:03<5:32:57,  8.70s/it] 55%|█████▌    | 2855/5150 [6:56:11<5:32:09,  8.68s/it] 55%|█████▌    | 2856/5150 [6:56:20<5:36:55,  8.81s/it] 55%|█████▌    | 2857/5150 [6:56:29<5:34:47,  8.76s/it] 55%|█████▌    | 2858/5150 [6:56:38<5:33:14,  8.72s/it] 56%|█████▌    | 2859/5150 [6:56:46<5:32:05,  8.70s/it] 56%|█████▌    | 2860/5150 [6:56:55<5:35:40,  8.79s/it]                                                       {'loss': '0.0002089', 'grad_norm': '0.002499', 'learning_rate': '9.82e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '154.8', 'tokens/total': 46858240, 'tokens/trainable': 14832775, 'epoch': '2.774'}
+ 56%|█████▌    | 2860/5150 [6:56:55<5:35:40,  8.79s/it] 56%|█████▌    | 2861/5150 [6:57:04<5:33:54,  8.75s/it] 56%|█████▌    | 2862/5150 [6:57:13<5:32:31,  8.72s/it] 56%|█████▌    | 2863/5150 [6:57:21<5:31:32,  8.70s/it] 56%|█████▌    | 2864/5150 [6:57:30<5:30:43,  8.68s/it] 56%|█████▌    | 2865/5150 [6:57:39<5:34:42,  8.79s/it] 56%|█████▌    | 2866/5150 [6:57:48<5:32:49,  8.74s/it] 56%|█████▌    | 2867/5150 [6:57:56<5:31:23,  8.71s/it] 56%|█████▌    | 2868/5150 [6:58:05<5:30:24,  8.69s/it] 56%|█████▌    | 2869/5150 [6:58:14<5:33:23,  8.77s/it] 56%|█████▌    | 2870/5150 [6:58:22<5:31:41,  8.73s/it]                                                       {'loss': '0.0001032', 'grad_norm': '0.0001572', 'learning_rate': '9.753e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '149.3', 'tokens/total': 47022080, 'tokens/trainable': 14885173, 'epoch': '2.784'}
+ 56%|█████▌    | 2870/5150 [6:58:22<5:31:41,  8.73s/it] 56%|█████▌    | 2871/5150 [6:58:31<5:30:36,  8.70s/it] 56%|█████▌    | 2872/5150 [6:58:40<5:29:36,  8.68s/it] 56%|█████▌    | 2873/5150 [6:58:49<5:32:52,  8.77s/it] 56%|█████▌    | 2874/5150 [6:58:57<5:31:11,  8.73s/it] 56%|█████▌    | 2875/5150 [6:59:06<5:30:01,  8.70s/it] 56%|█████▌    | 2876/5150 [6:59:15<5:29:13,  8.69s/it] 56%|█████▌    | 2877/5150 [6:59:23<5:28:34,  8.67s/it] 56%|█████▌    | 2878/5150 [6:59:32<5:31:50,  8.76s/it] 56%|█████▌    | 2879/5150 [6:59:41<5:30:09,  8.72s/it] 56%|█████▌    | 2880/5150 [6:59:49<5:29:04,  8.70s/it]                                                       {'loss': '7.652e-05', 'grad_norm': '0.0004857', 'learning_rate': '9.685e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '149.3', 'tokens/total': 47185920, 'tokens/trainable': 14937362, 'epoch': '2.793'}
+ 56%|█████▌    | 2880/5150 [6:59:49<5:29:04,  8.70s/it] 56%|█████▌    | 2881/5150 [6:59:58<5:28:17,  8.68s/it] 56%|█████▌    | 2882/5150 [7:00:07<5:31:52,  8.78s/it] 56%|█████▌    | 2883/5150 [7:00:16<5:30:15,  8.74s/it] 56%|█████▌    | 2884/5150 [7:00:24<5:29:17,  8.72s/it] 56%|█████▌    | 2885/5150 [7:00:33<5:28:13,  8.69s/it] 56%|█████▌    | 2886/5150 [7:00:42<5:27:26,  8.68s/it] 56%|█████▌    | 2887/5150 [7:00:51<5:31:05,  8.78s/it] 56%|█████▌    | 2888/5150 [7:00:59<5:29:14,  8.73s/it] 56%|█████▌    | 2889/5150 [7:01:08<5:27:54,  8.70s/it] 56%|█████▌    | 2890/5150 [7:01:17<5:26:56,  8.68s/it]                                                       {'loss': '0.0001646', 'grad_norm': '0.002753', 'learning_rate': '9.617e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '160.5', 'tokens/total': 47349760, 'tokens/trainable': 14988825, 'epoch': '2.803'}
+ 56%|█████▌    | 2890/5150 [7:01:17<5:26:56,  8.68s/it] 56%|█████▌    | 2891/5150 [7:01:26<5:30:01,  8.77s/it] 56%|█████▌    | 2892/5150 [7:01:34<5:28:16,  8.72s/it] 56%|█████▌    | 2893/5150 [7:01:43<5:26:59,  8.69s/it] 56%|█████▌    | 2894/5150 [7:01:51<5:26:01,  8.67s/it] 56%|█████▌    | 2895/5150 [7:02:00<5:25:20,  8.66s/it] 56%|█████▌    | 2896/5150 [7:02:09<5:28:37,  8.75s/it] 56%|█████▋    | 2897/5150 [7:02:18<5:27:06,  8.71s/it] 56%|█████▋    | 2898/5150 [7:02:26<5:26:01,  8.69s/it] 56%|█████▋    | 2899/5150 [7:02:35<5:25:14,  8.67s/it] 56%|█████▋    | 2900/5150 [7:02:44<5:28:27,  8.76s/it]                                                       {'loss': '7.384e-05', 'grad_norm': '0.00436', 'learning_rate': '9.549e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '138.2', 'tokens/total': 47513600, 'tokens/trainable': 15040924, 'epoch': '2.813'}
+ 56%|█████▋    | 2900/5150 [7:02:44<5:28:27,  8.76s/it] 56%|█████▋    | 2901/5150 [7:02:52<5:26:55,  8.72s/it] 56%|█████▋    | 2902/5150 [7:03:01<5:25:45,  8.69s/it] 56%|█████▋    | 2903/5150 [7:03:10<5:24:58,  8.68s/it] 56%|█████▋    | 2904/5150 [7:03:18<5:24:20,  8.66s/it] 56%|█████▋    | 2905/5150 [7:03:27<5:27:35,  8.76s/it] 56%|█████▋    | 2906/5150 [7:03:36<5:26:02,  8.72s/it] 56%|█████▋    | 2907/5150 [7:03:45<5:24:50,  8.69s/it] 56%|█████▋    | 2908/5150 [7:03:53<5:24:01,  8.67s/it] 56%|█████▋    | 2909/5150 [7:04:02<5:27:11,  8.76s/it] 57%|█████▋    | 2910/5150 [7:04:11<5:25:33,  8.72s/it]                                                       {'loss': '9.273e-05', 'grad_norm': '0.03441', 'learning_rate': '9.482e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '145.7', 'tokens/total': 47677440, 'tokens/trainable': 15093250, 'epoch': '2.823'}
+ 57%|█████▋    | 2910/5150 [7:04:11<5:25:33,  8.72s/it] 57%|█████▋    | 2911/5150 [7:04:19<5:24:23,  8.69s/it] 57%|█████▋    | 2912/5150 [7:04:28<5:23:33,  8.67s/it] 57%|█████▋    | 2913/5150 [7:04:37<5:22:51,  8.66s/it] 57%|█████▋    | 2914/5150 [7:04:46<5:25:59,  8.75s/it] 57%|█████▋    | 2915/5150 [7:04:54<5:24:29,  8.71s/it] 57%|█████▋    | 2916/5150 [7:05:03<5:23:27,  8.69s/it] 57%|█████▋    | 2917/5150 [7:05:12<5:22:39,  8.67s/it] 57%|█████▋    | 2918/5150 [7:05:21<5:25:48,  8.76s/it] 57%|█████▋    | 2919/5150 [7:05:29<5:24:09,  8.72s/it] 57%|█████▋    | 2920/5150 [7:05:38<5:22:56,  8.69s/it]                                                       {'loss': '0.0001508', 'grad_norm': '0.01058', 'learning_rate': '9.414e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '142.4', 'tokens/total': 47841280, 'tokens/trainable': 15144486, 'epoch': '2.832'}
+ 57%|█████▋    | 2920/5150 [7:05:38<5:22:56,  8.69s/it] 57%|█████▋    | 2921/5150 [7:05:46<5:22:07,  8.67s/it] 57%|█████▋    | 2922/5150 [7:05:55<5:21:27,  8.66s/it] 57%|█████▋    | 2923/5150 [7:06:04<5:24:39,  8.75s/it] 57%|█████▋    | 2924/5150 [7:06:13<5:23:12,  8.71s/it] 57%|█████▋    | 2925/5150 [7:06:21<5:22:10,  8.69s/it] 57%|█████▋    | 2926/5150 [7:06:30<5:21:18,  8.67s/it] 57%|█████▋    | 2927/5150 [7:06:39<5:24:12,  8.75s/it] 57%|█████▋    | 2928/5150 [7:06:47<5:22:41,  8.71s/it] 57%|█████▋    | 2929/5150 [7:06:56<5:21:34,  8.69s/it] 57%|█████▋    | 2930/5150 [7:07:05<5:20:47,  8.67s/it]                                                       {'loss': '0.0003681', 'grad_norm': '0.0001267', 'learning_rate': '9.346e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '156.7', 'tokens/total': 48005120, 'tokens/trainable': 15196888, 'epoch': '2.842'}
+ 57%|█████▋    | 2930/5150 [7:07:05<5:20:47,  8.67s/it] 57%|█████▋    | 2931/5150 [7:07:13<5:20:07,  8.66s/it] 57%|█████▋    | 2932/5150 [7:07:22<5:23:27,  8.75s/it] 57%|█████▋    | 2933/5150 [7:07:31<5:21:52,  8.71s/it] 57%|█████▋    | 2934/5150 [7:07:40<5:20:48,  8.69s/it] 57%|█████▋    | 2935/5150 [7:07:48<5:19:59,  8.67s/it] 57%|█████▋    | 2936/5150 [7:07:57<5:23:07,  8.76s/it] 57%|█████▋    | 2937/5150 [7:08:06<5:21:30,  8.72s/it] 57%|█████▋    | 2938/5150 [7:08:14<5:20:21,  8.69s/it] 57%|█████▋    | 2939/5150 [7:08:23<5:19:29,  8.67s/it] 57%|█████▋    | 2940/5150 [7:08:32<5:18:48,  8.66s/it]                                                       {'loss': '6.385e-05', 'grad_norm': '0.0004505', 'learning_rate': '9.279e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '143.1', 'tokens/total': 48168960, 'tokens/trainable': 15248315, 'epoch': '2.852'}
+ 57%|█████▋    | 2940/5150 [7:08:32<5:18:48,  8.66s/it] 57%|█████▋    | 2941/5150 [7:08:41<5:21:57,  8.74s/it] 57%|█████▋    | 2942/5150 [7:08:49<5:20:32,  8.71s/it] 57%|█████▋    | 2943/5150 [7:08:58<5:19:32,  8.69s/it] 57%|█████▋    | 2944/5150 [7:09:06<5:18:48,  8.67s/it] 57%|█████▋    | 2945/5150 [7:09:15<5:21:49,  8.76s/it] 57%|█████▋    | 2946/5150 [7:09:24<5:20:15,  8.72s/it] 57%|█████▋    | 2947/5150 [7:09:33<5:19:09,  8.69s/it] 57%|█████▋    | 2948/5150 [7:09:41<5:18:21,  8.67s/it] 57%|█████▋    | 2949/5150 [7:09:50<5:17:43,  8.66s/it] 57%|█████▋    | 2950/5150 [7:09:59<5:21:00,  8.75s/it]                                                       {'loss': '0.0001889', 'grad_norm': '0.01309', 'learning_rate': '9.211e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '154', 'tokens/total': 48332800, 'tokens/trainable': 15300471, 'epoch': '2.861'}
+ 57%|█████▋    | 2950/5150 [7:09:59<5:21:00,  8.75s/it] 57%|█████▋    | 2951/5150 [7:10:08<5:19:33,  8.72s/it] 57%|█████▋    | 2952/5150 [7:10:16<5:18:26,  8.69s/it] 57%|█████▋    | 2953/5150 [7:10:25<5:17:34,  8.67s/it] 57%|█████▋    | 2954/5150 [7:10:34<5:20:28,  8.76s/it] 57%|█████▋    | 2955/5150 [7:10:42<5:18:56,  8.72s/it] 57%|█████▋    | 2956/5150 [7:10:51<5:17:47,  8.69s/it] 57%|█████▋    | 2957/5150 [7:11:00<5:16:58,  8.67s/it] 57%|█████▋    | 2958/5150 [7:11:08<5:16:23,  8.66s/it] 57%|█████▋    | 2959/5150 [7:11:17<5:19:38,  8.75s/it] 57%|█████▋    | 2960/5150 [7:11:26<5:18:12,  8.72s/it]                                                       {'loss': '4.702e-05', 'grad_norm': '0.002242', 'learning_rate': '9.144e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '148.1', 'tokens/total': 48496640, 'tokens/trainable': 15352529, 'epoch': '2.871'}
+ 57%|█████▋    | 2960/5150 [7:11:26<5:18:12,  8.72s/it] 57%|█████▋    | 2961/5150 [7:11:35<5:17:12,  8.69s/it] 58%|█████▊    | 2962/5150 [7:11:43<5:16:24,  8.68s/it] 58%|█████▊    | 2963/5150 [7:11:52<5:19:33,  8.77s/it] 58%|█████▊    | 2964/5150 [7:12:01<5:17:59,  8.73s/it] 58%|█████▊    | 2965/5150 [7:12:09<5:16:49,  8.70s/it] 58%|█████▊    | 2966/5150 [7:12:18<5:15:56,  8.68s/it] 58%|█████▊    | 2967/5150 [7:12:27<5:15:22,  8.67s/it] 58%|█████▊    | 2968/5150 [7:12:36<5:18:32,  8.76s/it] 58%|█████▊    | 2969/5150 [7:12:44<5:17:00,  8.72s/it] 58%|█████▊    | 2970/5150 [7:12:53<5:15:53,  8.69s/it]                                                       {'loss': '0.0001311', 'grad_norm': '0.05074', 'learning_rate': '9.076e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '159.3', 'tokens/total': 48660480, 'tokens/trainable': 15404234, 'epoch': '2.881'}
+ 58%|█████▊    | 2970/5150 [7:12:53<5:15:53,  8.69s/it] 58%|█████▊    | 2971/5150 [7:13:02<5:15:06,  8.68s/it] 58%|█████▊    | 2972/5150 [7:13:10<5:14:35,  8.67s/it] 58%|█████▊    | 2973/5150 [7:13:19<5:17:46,  8.76s/it] 58%|█████▊    | 2974/5150 [7:13:28<5:16:15,  8.72s/it] 58%|█████▊    | 2975/5150 [7:13:36<5:15:07,  8.69s/it] 58%|█████▊    | 2976/5150 [7:13:45<5:14:16,  8.67s/it] 58%|█████▊    | 2977/5150 [7:13:54<5:17:05,  8.76s/it] 58%|█████▊    | 2978/5150 [7:14:03<5:15:34,  8.72s/it] 58%|█████▊    | 2979/5150 [7:14:11<5:14:33,  8.69s/it] 58%|█████▊    | 2980/5150 [7:14:20<5:13:48,  8.68s/it]                                                       {'loss': '0.0001456', 'grad_norm': '0.0005321', 'learning_rate': '9.009e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '149.1', 'tokens/total': 48824320, 'tokens/trainable': 15455381, 'epoch': '2.89'}
+ 58%|█████▊    | 2980/5150 [7:14:20<5:13:48,  8.68s/it] 58%|█████▊    | 2981/5150 [7:14:29<5:13:16,  8.67s/it] 58%|█████▊    | 2982/5150 [7:14:38<5:16:29,  8.76s/it] 58%|█████▊    | 2983/5150 [7:14:46<5:14:56,  8.72s/it] 58%|█████▊    | 2984/5150 [7:14:55<5:13:47,  8.69s/it] 58%|█████▊    | 2985/5150 [7:15:03<5:13:01,  8.68s/it] 58%|█████▊    | 2986/5150 [7:15:12<5:16:04,  8.76s/it] 58%|█████▊    | 2987/5150 [7:15:21<5:14:31,  8.72s/it] 58%|█████▊    | 2988/5150 [7:15:30<5:13:21,  8.70s/it] 58%|█████▊    | 2989/5150 [7:15:38<5:12:30,  8.68s/it] 58%|█████▊    | 2990/5150 [7:15:47<5:11:51,  8.66s/it]                                                       {'loss': '0.0002157', 'grad_norm': '0.0107', 'learning_rate': '8.941e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '147.4', 'tokens/total': 48988160, 'tokens/trainable': 15507515, 'epoch': '2.9'}
+ 58%|█████▊    | 2990/5150 [7:15:47<5:11:51,  8.66s/it] 58%|█████▊    | 2991/5150 [7:15:56<5:14:53,  8.75s/it] 58%|█████▊    | 2992/5150 [7:16:05<5:13:26,  8.71s/it] 58%|█████▊    | 2993/5150 [7:16:13<5:12:25,  8.69s/it] 58%|█████▊    | 2994/5150 [7:16:22<5:11:37,  8.67s/it] 58%|█████▊    | 2995/5150 [7:16:31<5:14:33,  8.76s/it] 58%|█████▊    | 2996/5150 [7:16:39<5:13:01,  8.72s/it] 58%|█████▊    | 2997/5150 [7:16:48<5:11:55,  8.69s/it] 58%|█████▊    | 2998/5150 [7:16:57<5:11:06,  8.67s/it] 58%|█████▊    | 2999/5150 [7:17:05<5:10:32,  8.66s/it] 58%|█████▊    | 3000/5150 [7:17:14<5:13:33,  8.75s/it]                                                       {'loss': '6.613e-05', 'grad_norm': '0.0002321', 'learning_rate': '8.874e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '137.7', 'tokens/total': 49152000, 'tokens/trainable': 15559166, 'epoch': '2.91'}
+ 58%|█████▊    | 3000/5150 [7:17:14<5:13:33,  8.75s/it] 58%|█████▊    | 3001/5150 [7:17:23<5:12:10,  8.72s/it] 58%|█████▊    | 3002/5150 [7:17:31<5:11:04,  8.69s/it] 58%|█████▊    | 3003/5150 [7:17:40<5:10:16,  8.67s/it] 58%|█████▊    | 3004/5150 [7:17:49<5:13:12,  8.76s/it] 58%|█████▊    | 3005/5150 [7:17:58<5:11:41,  8.72s/it] 58%|█████▊    | 3006/5150 [7:18:06<5:10:35,  8.69s/it] 58%|█████▊    | 3007/5150 [7:18:15<5:09:44,  8.67s/it] 58%|█████▊    | 3008/5150 [7:18:24<5:12:40,  8.76s/it] 58%|█████▊    | 3009/5150 [7:18:33<5:11:06,  8.72s/it] 58%|█████▊    | 3010/5150 [7:18:41<5:10:00,  8.69s/it]                                                       {'loss': '9.337e-05', 'grad_norm': '0.0008321', 'learning_rate': '8.807e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '145.5', 'tokens/total': 49315840, 'tokens/trainable': 15610619, 'epoch': '2.919'}
+ 58%|█████▊    | 3010/5150 [7:18:41<5:10:00,  8.69s/it] 58%|█████▊    | 3011/5150 [7:18:50<5:09:16,  8.68s/it] 58%|█████▊    | 3012/5150 [7:18:58<5:08:48,  8.67s/it] 59%|█████▊    | 3013/5150 [7:19:07<5:11:49,  8.76s/it] 59%|█████▊    | 3014/5150 [7:19:16<5:10:22,  8.72s/it] 59%|█████▊    | 3015/5150 [7:19:25<5:09:17,  8.69s/it] 59%|█████▊    | 3016/5150 [7:19:33<5:08:28,  8.67s/it] 59%|█████▊    | 3017/5150 [7:19:42<5:11:25,  8.76s/it] 59%|█████▊    | 3018/5150 [7:19:51<5:09:54,  8.72s/it] 59%|█████▊    | 3019/5150 [7:20:00<5:08:45,  8.69s/it] 59%|█████▊    | 3020/5150 [7:20:08<5:07:56,  8.67s/it]                                                       {'loss': '0.0001255', 'grad_norm': '0.001916', 'learning_rate': '8.739e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '150.6', 'tokens/total': 49479680, 'tokens/trainable': 15662382, 'epoch': '2.929'}
+ 59%|█████▊    | 3020/5150 [7:20:08<5:07:56,  8.67s/it] 59%|█████▊    | 3021/5150 [7:20:17<5:07:24,  8.66s/it] 59%|█████▊    | 3022/5150 [7:20:26<5:10:24,  8.75s/it] 59%|█████▊    | 3023/5150 [7:20:34<5:08:58,  8.72s/it] 59%|█████▊    | 3024/5150 [7:20:43<5:07:54,  8.69s/it] 59%|█████▊    | 3025/5150 [7:20:52<5:07:09,  8.67s/it] 59%|█████▉    | 3026/5150 [7:21:00<5:06:37,  8.66s/it] 59%|█████▉    | 3027/5150 [7:21:09<5:09:39,  8.75s/it] 59%|█████▉    | 3028/5150 [7:21:18<5:08:13,  8.72s/it] 59%|█████▉    | 3029/5150 [7:21:26<5:07:13,  8.69s/it] 59%|█████▉    | 3030/5150 [7:21:35<5:06:25,  8.67s/it]                                                       {'loss': '0.0001691', 'grad_norm': '0.03002', 'learning_rate': '8.672e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '168.5', 'tokens/total': 49643520, 'tokens/trainable': 15714802, 'epoch': '2.939'}
+ 59%|█████▉    | 3030/5150 [7:21:35<5:06:25,  8.67s/it] 59%|█████▉    | 3031/5150 [7:21:44<5:09:17,  8.76s/it] 59%|█████▉    | 3032/5150 [7:21:53<5:07:48,  8.72s/it] 59%|█████▉    | 3033/5150 [7:22:01<5:06:44,  8.69s/it] 59%|█████▉    | 3034/5150 [7:22:10<5:05:54,  8.67s/it] 59%|█████▉    | 3035/5150 [7:22:19<5:05:18,  8.66s/it] 59%|█████▉    | 3036/5150 [7:22:28<5:08:16,  8.75s/it] 59%|█████▉    | 3037/5150 [7:22:36<5:06:51,  8.71s/it] 59%|█████▉    | 3038/5150 [7:22:45<5:05:50,  8.69s/it] 59%|█████▉    | 3039/5150 [7:22:53<5:05:03,  8.67s/it] 59%|█████▉    | 3040/5150 [7:23:02<5:07:59,  8.76s/it]                                                       {'loss': '9.145e-05', 'grad_norm': '0.0008812', 'learning_rate': '8.605e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '149.2', 'tokens/total': 49807360, 'tokens/trainable': 15766668, 'epoch': '2.949'}
+ 59%|█████▉    | 3040/5150 [7:23:02<5:07:59,  8.76s/it] 59%|█████▉    | 3041/5150 [7:23:11<5:06:29,  8.72s/it] 59%|█████▉    | 3042/5150 [7:23:20<5:05:20,  8.69s/it] 59%|█████▉    | 3043/5150 [7:23:28<5:04:34,  8.67s/it] 59%|█████▉    | 3044/5150 [7:23:37<5:07:33,  8.76s/it] 59%|█████▉    | 3045/5150 [7:23:46<5:05:59,  8.72s/it] 59%|█████▉    | 3046/5150 [7:23:55<5:04:52,  8.69s/it] 59%|█████▉    | 3047/5150 [7:24:03<5:04:05,  8.68s/it] 59%|█████▉    | 3048/5150 [7:24:12<5:03:28,  8.66s/it] 59%|█████▉    | 3049/5150 [7:24:21<5:06:21,  8.75s/it] 59%|█████▉    | 3050/5150 [7:24:29<5:04:59,  8.71s/it]                                                       {'loss': '0.000108', 'grad_norm': '0.0001782', 'learning_rate': '8.538e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '140.4', 'tokens/total': 49971200, 'tokens/trainable': 15818789, 'epoch': '2.958'}
+ 59%|█████▉    | 3050/5150 [7:24:29<5:04:59,  8.71s/it] 59%|█████▉    | 3051/5150 [7:24:38<5:04:02,  8.69s/it] 59%|█████▉    | 3052/5150 [7:24:47<5:03:15,  8.67s/it] 59%|█████▉    | 3053/5150 [7:24:56<5:06:04,  8.76s/it] 59%|█████▉    | 3054/5150 [7:25:04<5:04:39,  8.72s/it] 59%|█████▉    | 3055/5150 [7:25:13<5:03:31,  8.69s/it] 59%|█████▉    | 3056/5150 [7:25:21<5:02:42,  8.67s/it] 59%|█████▉    | 3057/5150 [7:25:30<5:02:06,  8.66s/it] 59%|█████▉    | 3058/5150 [7:25:39<5:04:59,  8.75s/it] 59%|█████▉    | 3059/5150 [7:25:48<5:03:39,  8.71s/it] 59%|█████▉    | 3060/5150 [7:25:56<5:02:38,  8.69s/it]                                                       {'loss': '9.309e-05', 'grad_norm': '0.01524', 'learning_rate': '8.471e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '145.3', 'tokens/total': 50135040, 'tokens/trainable': 15870829, 'epoch': '2.968'}
+ 59%|█████▉    | 3060/5150 [7:25:56<5:02:38,  8.69s/it] 59%|█████▉    | 3061/5150 [7:26:05<5:01:54,  8.67s/it] 59%|█████▉    | 3062/5150 [7:26:14<5:01:18,  8.66s/it] 59%|█████▉    | 3063/5150 [7:26:23<5:04:12,  8.75s/it] 59%|█████▉    | 3064/5150 [7:26:31<5:02:49,  8.71s/it] 60%|█████▉    | 3065/5150 [7:26:40<5:01:53,  8.69s/it] 60%|█████▉    | 3066/5150 [7:26:48<5:01:07,  8.67s/it] 60%|█████▉    | 3067/5150 [7:26:57<5:04:02,  8.76s/it] 60%|█████▉    | 3068/5150 [7:27:06<5:02:29,  8.72s/it] 60%|█████▉    | 3069/5150 [7:27:15<5:01:25,  8.69s/it] 60%|█████▉    | 3070/5150 [7:27:23<5:00:38,  8.67s/it]                                                       {'loss': '7.106e-05', 'grad_norm': '0.01009', 'learning_rate': '8.404e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '147.6', 'tokens/total': 50298880, 'tokens/trainable': 15922358, 'epoch': '2.978'}
+ 60%|█████▉    | 3070/5150 [7:27:23<5:00:38,  8.67s/it] 60%|█████▉    | 3071/5150 [7:27:32<5:03:28,  8.76s/it] 60%|█████▉    | 3072/5150 [7:27:41<5:01:59,  8.72s/it] 60%|█████▉    | 3073/5150 [7:27:49<5:00:54,  8.69s/it] 60%|█████▉    | 3074/5150 [7:27:58<5:00:05,  8.67s/it] 60%|█████▉    | 3075/5150 [7:28:07<4:59:29,  8.66s/it] 60%|█████▉    | 3076/5150 [7:28:16<5:02:16,  8.74s/it] 60%|█████▉    | 3077/5150 [7:28:24<5:00:54,  8.71s/it] 60%|█████▉    | 3078/5150 [7:28:33<4:59:54,  8.68s/it] 60%|█████▉    | 3079/5150 [7:28:42<4:59:11,  8.67s/it] 60%|█████▉    | 3080/5150 [7:28:50<4:58:39,  8.66s/it]                                                       {'loss': '3.295e-05', 'grad_norm': '0.006129', 'learning_rate': '8.337e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '157.7', 'tokens/total': 50462720, 'tokens/trainable': 15974474, 'epoch': '2.987'}
+ 60%|█████▉    | 3080/5150 [7:28:50<4:58:39,  8.66s/it] 60%|█████▉    | 3081/5150 [7:28:59<5:01:34,  8.75s/it] 60%|█████▉    | 3082/5150 [7:29:08<5:00:13,  8.71s/it] 60%|█████▉    | 3083/5150 [7:29:16<4:59:11,  8.69s/it] 60%|█████▉    | 3084/5150 [7:29:25<4:58:27,  8.67s/it] 60%|█████▉    | 3085/5150 [7:29:34<5:01:17,  8.75s/it] 60%|█████▉    | 3086/5150 [7:29:43<4:59:50,  8.72s/it] 60%|█████▉    | 3087/5150 [7:29:51<4:58:48,  8.69s/it] 60%|█████▉    | 3088/5150 [7:30:00<4:58:00,  8.67s/it] 60%|█████▉    | 3089/5150 [7:30:09<5:00:52,  8.76s/it] 60%|██████    | 3090/5150 [7:30:17<4:59:22,  8.72s/it]                                                       {'loss': '0.0001571', 'grad_norm': '0.01357', 'learning_rate': '8.27e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '162.1', 'tokens/total': 50626560, 'tokens/trainable': 16026800, 'epoch': '2.997'}
+ 60%|██████    | 3090/5150 [7:30:17<4:59:22,  8.72s/it][2026-03-05 11:02:58,127] [INFO] [axolotl.core.trainers.base.evaluate:400] [PID:1482537] Running evaluation step...
+[2026-03-05 11:02:59,285] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.575049638748169
+[2026-03-05 11:02:59,863] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.5771472454071045
+[2026-03-05 11:03:00,458] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.5947592258453369
+[2026-03-05 11:03:01,037] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.5791370868682861
+[2026-03-05 11:03:01,038] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:1482537] gather_len_batches: [17]
+
+  0%|          | 0/17 [00:00<?, ?it/s][A
+ 12%|█▏        | 2/17 [00:00<00:04,  3.25it/s][A
+ 18%|█▊        | 3/17 [00:01<00:06,  2.29it/s][A
+ 24%|██▎       | 4/17 [00:01<00:06,  1.98it/s][A
+ 29%|██▉       | 5/17 [00:02<00:07,  1.65it/s][A
+ 35%|███▌      | 6/17 [00:03<00:06,  1.65it/s][A
+ 41%|████      | 7/17 [00:03<00:06,  1.64it/s][A
+ 47%|████▋     | 8/17 [00:04<00:05,  1.63it/s][A
+ 53%|█████▎    | 9/17 [00:05<00:05,  1.53it/s][A
+ 59%|█████▉    | 10/17 [00:05<00:04,  1.57it/s][A
+ 65%|██████▍   | 11/17 [00:06<00:03,  1.59it/s][A
+ 71%|███████   | 12/17 [00:07<00:03,  1.60it/s][A
+ 76%|███████▋  | 13/17 [00:07<00:02,  1.40it/s][A
+ 82%|████████▏ | 14/17 [00:08<00:02,  1.47it/s][A
+ 88%|████████▊ | 15/17 [00:09<00:01,  1.51it/s][A
+ 94%|█████████▍| 16/17 [00:09<00:00,  1.54it/s][ATraceback (most recent call last):
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 300, in _run_finalizers
+    finalizer()
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 224, in __call__
+    res = self._callback(*self._args, **self._kwargs)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 133, in _remove_temp_dir
+    rmtree(tempdir)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 725, in rmtree
+    _rmtree_safe_fd(fd, path, onerror)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 681, in _rmtree_safe_fd
+    onerror(os.unlink, fullname, sys.exc_info())
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 679, in _rmtree_safe_fd
+    os.unlink(entry.name, dir_fd=topfd)
+OSError: [Errno 16] Device or resource busy: '.nfs0000000000086e90000060fd'
+
+100%|██████████| 17/17 [00:10<00:00,  1.30it/s][A                                                       
+                                               [A{'eval_loss': '0.00042', 'eval_runtime': '12.34', 'eval_samples_per_second': '16.2', 'eval_steps_per_second': '8.102', 'eval_ppl': '1', 'memory/max_active (GiB)': '14.2', 'memory/max_allocated (GiB)': '14.2', 'memory/device_reserved (GiB)': '18.85', 'epoch': '2.997', 'tokens/train_per_sec_per_gpu': '0'}
+ 60%|██████    | 3090/5150 [7:30:33<4:59:22,  8.72s/it]
+100%|██████████| 17/17 [00:10<00:00,  1.30it/s][A
+                                               [A[2026-03-05 11:03:13,425] [INFO] [axolotl.core.trainers.base._save:721] [PID:1482537] Saving model checkpoint to /home/jiaruil5/math_rl/mix_teachers/r3lit_rl/mix_teachers/checkpoints/math_operations/primitive_atomic_balanced_sft_50k_t20260305/checkpoint-3090
+ 60%|██████    | 3091/5150 [7:30:43<7:53:32, 13.80s/it] 60%|██████    | 3092/5150 [7:30:52<7:00:02, 12.25s/it]Traceback (most recent call last):
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 300, in _run_finalizers
+    finalizer()
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 224, in __call__
+    res = self._callback(*self._args, **self._kwargs)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 133, in _remove_temp_dir
+    rmtree(tempdir)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 725, in rmtree
+    _rmtree_safe_fd(fd, path, onerror)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 681, in _rmtree_safe_fd
+    onerror(os.unlink, fullname, sys.exc_info())
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 679, in _rmtree_safe_fd
+    os.unlink(entry.name, dir_fd=topfd)
+OSError: [Errno 16] Device or resource busy: '.nfs0000000000086140000060fe'
+ 60%|██████    | 3093/5150 [7:31:07<7:30:25, 13.14s/it] 60%|██████    | 3094/5150 [7:31:16<6:43:46, 11.78s/it] 60%|██████    | 3095/5150 [7:31:24<6:11:07, 10.84s/it] 60%|██████    | 3096/5150 [7:31:33<5:48:18, 10.17s/it] 60%|██████    | 3097/5150 [7:31:42<5:36:17,  9.83s/it] 60%|██████    | 3098/5150 [7:31:50<5:23:46,  9.47s/it] 60%|██████    | 3099/5150 [7:31:59<5:14:56,  9.21s/it] 60%|██████    | 3100/5150 [7:32:08<5:08:47,  9.04s/it]                                                       {'loss': '0.0001178', 'grad_norm': '0.01326', 'learning_rate': '8.203e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.73', 'memory/max_allocated (GiB)': '16.73', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '147.2', 'tokens/total': 50798592, 'tokens/trainable': 16080773, 'epoch': '3.008'}
+ 60%|██████    | 3100/5150 [7:32:08<5:08:47,  9.04s/it] 60%|██████    | 3101/5150 [7:32:17<5:07:23,  9.00s/it] 60%|██████    | 3102/5150 [7:32:25<5:03:22,  8.89s/it] 60%|██████    | 3103/5150 [7:32:34<5:00:33,  8.81s/it] 60%|██████    | 3104/5150 [7:32:43<4:58:31,  8.75s/it] 60%|██████    | 3105/5150 [7:32:51<4:57:01,  8.71s/it] 60%|██████    | 3106/5150 [7:33:00<4:58:59,  8.78s/it] 60%|██████    | 3107/5150 [7:33:09<4:57:18,  8.73s/it] 60%|██████    | 3108/5150 [7:33:17<4:56:08,  8.70s/it] 60%|██████    | 3109/5150 [7:33:26<4:55:18,  8.68s/it] 60%|██████    | 3110/5150 [7:33:35<4:54:36,  8.66s/it]                                                       {'loss': '2.927e-05', 'grad_norm': '9.272e-05', 'learning_rate': '8.137e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '148', 'tokens/total': 50962432, 'tokens/trainable': 16132389, 'epoch': '3.017'}
+ 60%|██████    | 3110/5150 [7:33:35<4:54:36,  8.66s/it] 60%|██████    | 3111/5150 [7:33:44<4:56:58,  8.74s/it] 60%|██████    | 3112/5150 [7:33:52<4:55:41,  8.71s/it] 60%|██████    | 3113/5150 [7:34:01<4:54:44,  8.68s/it] 60%|██████    | 3114/5150 [7:34:09<4:54:06,  8.67s/it] 60%|██████    | 3115/5150 [7:34:18<4:56:33,  8.74s/it] 61%|██████    | 3116/5150 [7:34:27<4:55:12,  8.71s/it] 61%|██████    | 3117/5150 [7:34:36<4:54:13,  8.68s/it] 61%|██████    | 3118/5150 [7:34:44<4:53:35,  8.67s/it] 61%|██████    | 3119/5150 [7:34:53<4:53:02,  8.66s/it] 61%|██████    | 3120/5150 [7:35:02<4:55:30,  8.73s/it]                                                       {'loss': '4.346e-05', 'grad_norm': '0.000691', 'learning_rate': '8.07e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '143.4', 'tokens/total': 51126272, 'tokens/trainable': 16184119, 'epoch': '3.027'}
+ 61%|██████    | 3120/5150 [7:35:02<4:55:30,  8.73s/it] 61%|██████    | 3121/5150 [7:35:10<4:54:18,  8.70s/it] 61%|██████    | 3122/5150 [7:35:19<4:53:25,  8.68s/it] 61%|██████    | 3123/5150 [7:35:28<4:52:48,  8.67s/it] 61%|██████    | 3124/5150 [7:35:37<4:55:20,  8.75s/it] 61%|██████    | 3125/5150 [7:35:45<4:54:04,  8.71s/it] 61%|██████    | 3126/5150 [7:35:54<4:53:10,  8.69s/it] 61%|██████    | 3127/5150 [7:36:02<4:52:21,  8.67s/it] 61%|██████    | 3128/5150 [7:36:11<4:51:44,  8.66s/it] 61%|██████    | 3129/5150 [7:36:20<4:54:06,  8.73s/it] 61%|██████    | 3130/5150 [7:36:29<4:52:50,  8.70s/it]                                                       {'loss': '9.275e-05', 'grad_norm': '0.0007948', 'learning_rate': '8.004e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '145.3', 'tokens/total': 51290112, 'tokens/trainable': 16236213, 'epoch': '3.037'}
+ 61%|██████    | 3130/5150 [7:36:29<4:52:50,  8.70s/it] 61%|██████    | 3131/5150 [7:36:37<4:52:01,  8.68s/it] 61%|██████    | 3132/5150 [7:36:46<4:51:18,  8.66s/it] 61%|██████    | 3133/5150 [7:36:55<4:53:47,  8.74s/it] 61%|██████    | 3134/5150 [7:37:03<4:52:28,  8.70s/it] 61%|██████    | 3135/5150 [7:37:12<4:51:37,  8.68s/it] 61%|██████    | 3136/5150 [7:37:21<4:50:54,  8.67s/it] 61%|██████    | 3137/5150 [7:37:29<4:50:22,  8.65s/it] 61%|██████    | 3138/5150 [7:37:38<4:52:48,  8.73s/it] 61%|██████    | 3139/5150 [7:37:47<4:51:36,  8.70s/it] 61%|██████    | 3140/5150 [7:37:55<4:50:41,  8.68s/it]                                                       {'loss': '0.000145', 'grad_norm': '7.962e-05', 'learning_rate': '7.937e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '151.3', 'tokens/total': 51453952, 'tokens/trainable': 16287914, 'epoch': '3.047'}
+ 61%|██████    | 3140/5150 [7:37:55<4:50:41,  8.68s/it] 61%|██████    | 3141/5150 [7:38:04<4:50:00,  8.66s/it] 61%|██████    | 3142/5150 [7:38:13<4:49:29,  8.65s/it] 61%|██████    | 3143/5150 [7:38:22<4:52:05,  8.73s/it] 61%|██████    | 3144/5150 [7:38:30<4:50:52,  8.70s/it] 61%|██████    | 3145/5150 [7:38:39<4:50:00,  8.68s/it] 61%|██████    | 3146/5150 [7:38:48<4:49:21,  8.66s/it] 61%|██████    | 3147/5150 [7:38:56<4:51:45,  8.74s/it] 61%|██████    | 3148/5150 [7:39:05<4:50:27,  8.71s/it] 61%|██████    | 3149/5150 [7:39:14<4:49:35,  8.68s/it] 61%|██████    | 3150/5150 [7:39:22<4:48:55,  8.67s/it]                                                       {'loss': '1.442e-05', 'grad_norm': '3.76e-05', 'learning_rate': '7.871e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '154.4', 'tokens/total': 51617792, 'tokens/trainable': 16339747, 'epoch': '3.056'}
+ 61%|██████    | 3150/5150 [7:39:22<4:48:55,  8.67s/it] 61%|██████    | 3151/5150 [7:39:31<4:48:23,  8.66s/it] 61%|██████    | 3152/5150 [7:39:40<4:50:51,  8.73s/it] 61%|██████    | 3153/5150 [7:39:48<4:49:35,  8.70s/it] 61%|██████    | 3154/5150 [7:39:57<4:48:40,  8.68s/it] 61%|██████▏   | 3155/5150 [7:40:06<4:48:03,  8.66s/it] 61%|██████▏   | 3156/5150 [7:40:15<4:50:30,  8.74s/it] 61%|██████▏   | 3157/5150 [7:40:23<4:49:11,  8.71s/it] 61%|██████▏   | 3158/5150 [7:40:32<4:48:15,  8.68s/it] 61%|██████▏   | 3159/5150 [7:40:41<4:47:35,  8.67s/it] 61%|██████▏   | 3160/5150 [7:40:49<4:47:02,  8.65s/it]                                                       {'loss': '3.372e-05', 'grad_norm': '8.794e-05', 'learning_rate': '7.805e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '144.3', 'tokens/total': 51781632, 'tokens/trainable': 16391470, 'epoch': '3.066'}
+ 61%|██████▏   | 3160/5150 [7:40:49<4:47:02,  8.65s/it] 61%|██████▏   | 3161/5150 [7:40:58<4:49:27,  8.73s/it] 61%|██████▏   | 3162/5150 [7:41:07<4:48:20,  8.70s/it] 61%|██████▏   | 3163/5150 [7:41:15<4:47:24,  8.68s/it] 61%|██████▏   | 3164/5150 [7:41:24<4:46:44,  8.66s/it] 61%|██████▏   | 3165/5150 [7:41:33<4:49:06,  8.74s/it] 61%|██████▏   | 3166/5150 [7:41:42<4:47:51,  8.71s/it] 61%|██████▏   | 3167/5150 [7:41:50<4:46:55,  8.68s/it] 62%|██████▏   | 3168/5150 [7:41:59<4:46:14,  8.67s/it] 62%|██████▏   | 3169/5150 [7:42:07<4:45:42,  8.65s/it] 62%|██████▏   | 3170/5150 [7:42:16<4:48:16,  8.74s/it]                                                       {'loss': '2.102e-05', 'grad_norm': '0.0001348', 'learning_rate': '7.739e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '139.2', 'tokens/total': 51945472, 'tokens/trainable': 16443334, 'epoch': '3.076'}
+ 62%|██████▏   | 3170/5150 [7:42:16<4:48:16,  8.74s/it] 62%|██████▏   | 3171/5150 [7:42:25<4:47:02,  8.70s/it] 62%|██████▏   | 3172/5150 [7:42:34<4:46:10,  8.68s/it] 62%|██████▏   | 3173/5150 [7:42:42<4:45:31,  8.67s/it] 62%|██████▏   | 3174/5150 [7:42:51<4:47:54,  8.74s/it] 62%|██████▏   | 3175/5150 [7:43:00<4:46:39,  8.71s/it] 62%|██████▏   | 3176/5150 [7:43:08<4:45:40,  8.68s/it] 62%|██████▏   | 3177/5150 [7:43:17<4:44:59,  8.67s/it] 62%|██████▏   | 3178/5150 [7:43:26<4:47:17,  8.74s/it] 62%|██████▏   | 3179/5150 [7:43:35<4:46:00,  8.71s/it] 62%|██████▏   | 3180/5150 [7:43:43<4:45:03,  8.68s/it]                                                       {'loss': '1.632e-05', 'grad_norm': '0.0004393', 'learning_rate': '7.673e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '145.1', 'tokens/total': 52109312, 'tokens/trainable': 16495954, 'epoch': '3.085'}
+ 62%|██████▏   | 3180/5150 [7:43:43<4:45:03,  8.68s/it] 62%|██████▏   | 3181/5150 [7:43:52<4:44:28,  8.67s/it] 62%|██████▏   | 3182/5150 [7:44:00<4:43:55,  8.66s/it] 62%|██████▏   | 3183/5150 [7:44:09<4:46:19,  8.73s/it] 62%|██████▏   | 3184/5150 [7:44:18<4:45:09,  8.70s/it] 62%|██████▏   | 3185/5150 [7:44:27<4:44:17,  8.68s/it] 62%|██████▏   | 3186/5150 [7:44:35<4:43:34,  8.66s/it] 62%|██████▏   | 3187/5150 [7:44:44<4:45:58,  8.74s/it] 62%|██████▏   | 3188/5150 [7:44:53<4:44:45,  8.71s/it] 62%|██████▏   | 3189/5150 [7:45:01<4:43:48,  8.68s/it] 62%|██████▏   | 3190/5150 [7:45:10<4:43:04,  8.67s/it]                                                       {'loss': '2.39e-05', 'grad_norm': '9.63e-05', 'learning_rate': '7.607e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '141.3', 'tokens/total': 52273152, 'tokens/trainable': 16547877, 'epoch': '3.095'}
+ 62%|██████▏   | 3190/5150 [7:45:10<4:43:04,  8.67s/it] 62%|██████▏   | 3191/5150 [7:45:19<4:42:33,  8.65s/it] 62%|██████▏   | 3192/5150 [7:45:28<4:45:00,  8.73s/it] 62%|██████▏   | 3193/5150 [7:45:36<4:43:50,  8.70s/it] 62%|██████▏   | 3194/5150 [7:45:45<4:42:56,  8.68s/it] 62%|██████▏   | 3195/5150 [7:45:53<4:42:16,  8.66s/it] 62%|██████▏   | 3196/5150 [7:46:02<4:44:44,  8.74s/it] 62%|██████▏   | 3197/5150 [7:46:11<4:43:27,  8.71s/it] 62%|██████▏   | 3198/5150 [7:46:20<4:42:29,  8.68s/it] 62%|██████▏   | 3199/5150 [7:46:28<4:41:49,  8.67s/it] 62%|██████▏   | 3200/5150 [7:46:37<4:41:19,  8.66s/it]                                                       {'loss': '6.95e-05', 'grad_norm': '0.01777', 'learning_rate': '7.541e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '159.4', 'tokens/total': 52436992, 'tokens/trainable': 16599995, 'epoch': '3.105'}
+ 62%|██████▏   | 3200/5150 [7:46:37<4:41:19,  8.66s/it] 62%|██████▏   | 3201/5150 [7:46:46<4:43:46,  8.74s/it] 62%|██████▏   | 3202/5150 [7:46:54<4:42:33,  8.70s/it] 62%|██████▏   | 3203/5150 [7:47:03<4:41:45,  8.68s/it] 62%|██████▏   | 3204/5150 [7:47:12<4:41:05,  8.67s/it] 62%|██████▏   | 3205/5150 [7:47:21<4:43:25,  8.74s/it] 62%|██████▏   | 3206/5150 [7:47:29<4:42:14,  8.71s/it] 62%|██████▏   | 3207/5150 [7:47:38<4:41:16,  8.69s/it] 62%|██████▏   | 3208/5150 [7:47:47<4:40:32,  8.67s/it] 62%|██████▏   | 3209/5150 [7:47:55<4:40:01,  8.66s/it] 62%|██████▏   | 3210/5150 [7:48:04<4:42:27,  8.74s/it]                                                       {'loss': '4.49e-05', 'grad_norm': '0.000538', 'learning_rate': '7.476e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '149.2', 'tokens/total': 52600832, 'tokens/trainable': 16651882, 'epoch': '3.114'}
+ 62%|██████▏   | 3210/5150 [7:48:04<4:42:27,  8.74s/it] 62%|██████▏   | 3211/5150 [7:48:13<4:41:19,  8.71s/it] 62%|██████▏   | 3212/5150 [7:48:21<4:40:27,  8.68s/it] 62%|██████▏   | 3213/5150 [7:48:30<4:39:51,  8.67s/it] 62%|██████▏   | 3214/5150 [7:48:39<4:42:14,  8.75s/it] 62%|██████▏   | 3215/5150 [7:48:48<4:40:57,  8.71s/it] 62%|██████▏   | 3216/5150 [7:48:56<4:40:02,  8.69s/it] 62%|██████▏   | 3217/5150 [7:49:05<4:39:25,  8.67s/it] 62%|██████▏   | 3218/5150 [7:49:13<4:38:56,  8.66s/it] 63%|█��████▎   | 3219/5150 [7:49:22<4:41:14,  8.74s/it] 63%|██████▎   | 3220/5150 [7:49:31<4:40:07,  8.71s/it]                                                       {'loss': '3.077e-05', 'grad_norm': '3.274e-05', 'learning_rate': '7.41e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '164', 'tokens/total': 52764672, 'tokens/trainable': 16703781, 'epoch': '3.124'}
+ 63%|██████▎   | 3220/5150 [7:49:31<4:40:07,  8.71s/it] 63%|██████▎   | 3221/5150 [7:49:40<4:39:15,  8.69s/it] 63%|██████▎   | 3222/5150 [7:49:48<4:38:36,  8.67s/it] 63%|██████▎   | 3223/5150 [7:49:57<4:38:01,  8.66s/it] 63%|██████▎   | 3224/5150 [7:50:06<4:40:21,  8.73s/it] 63%|██████▎   | 3225/5150 [7:50:14<4:39:09,  8.70s/it] 63%|██████▎   | 3226/5150 [7:50:23<4:38:19,  8.68s/it] 63%|██████▎   | 3227/5150 [7:50:32<4:37:38,  8.66s/it] 63%|██████▎   | 3228/5150 [7:50:41<4:40:00,  8.74s/it] 63%|██████▎   | 3229/5150 [7:50:49<4:38:46,  8.71s/it] 63%|██████▎   | 3230/5150 [7:50:58<4:38:06,  8.69s/it]                                                       {'loss': '8.043e-06', 'grad_norm': '1.19e-05', 'learning_rate': '7.345e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '146.2', 'tokens/total': 52928512, 'tokens/trainable': 16755536, 'epoch': '3.134'}
+ 63%|██████▎   | 3230/5150 [7:50:58<4:38:06,  8.69s/it] 63%|██████▎   | 3231/5150 [7:51:07<4:37:35,  8.68s/it] 63%|██████▎   | 3232/5150 [7:51:15<4:39:58,  8.76s/it] 63%|██████▎   | 3233/5150 [7:51:24<4:38:43,  8.72s/it] 63%|██████▎   | 3234/5150 [7:51:33<4:37:55,  8.70s/it] 63%|██████▎   | 3235/5150 [7:51:41<4:37:13,  8.69s/it] 63%|██████▎   | 3236/5150 [7:51:50<4:36:48,  8.68s/it] 63%|██████▎   | 3237/5150 [7:51:59<4:39:09,  8.76s/it] 63%|██████▎   | 3238/5150 [7:52:08<4:37:45,  8.72s/it] 63%|██████▎   | 3239/5150 [7:52:16<4:36:48,  8.69s/it] 63%|██████▎   | 3240/5150 [7:52:25<4:36:05,  8.67s/it]                                                       {'loss': '4.721e-05', 'grad_norm': '0.01811', 'learning_rate': '7.279e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '151.9', 'tokens/total': 53092352, 'tokens/trainable': 16806718, 'epoch': '3.144'}
+ 63%|██████▎   | 3240/5150 [7:52:25<4:36:05,  8.67s/it] 63%|██████▎   | 3241/5150 [7:52:34<4:38:21,  8.75s/it] 63%|██████▎   | 3242/5150 [7:52:42<4:37:03,  8.71s/it] 63%|██████▎   | 3243/5150 [7:52:51<4:36:04,  8.69s/it] 63%|██████▎   | 3244/5150 [7:53:00<4:35:21,  8.67s/it] 63%|██████▎   | 3245/5150 [7:53:08<4:34:50,  8.66s/it] 63%|██████▎   | 3246/5150 [7:53:17<4:37:08,  8.73s/it] 63%|██████▎   | 3247/5150 [7:53:26<4:35:59,  8.70s/it] 63%|██████▎   | 3248/5150 [7:53:35<4:35:12,  8.68s/it] 63%|██████▎   | 3249/5150 [7:53:43<4:34:36,  8.67s/it] 63%|██████▎   | 3250/5150 [7:53:52<4:34:06,  8.66s/it]                                                       {'loss': '1.046e-05', 'grad_norm': '0.001247', 'learning_rate': '7.214e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '151.2', 'tokens/total': 53256192, 'tokens/trainable': 16858334, 'epoch': '3.153'}
+ 63%|██████▎   | 3250/5150 [7:53:52<4:34:06,  8.66s/it] 63%|██████▎   | 3251/5150 [7:54:01<4:36:30,  8.74s/it] 63%|██████▎   | 3252/5150 [7:54:09<4:35:21,  8.70s/it] 63%|██████▎   | 3253/5150 [7:54:18<4:34:31,  8.68s/it] 63%|██████▎   | 3254/5150 [7:54:27<4:33:52,  8.67s/it] 63%|██████▎   | 3255/5150 [7:54:36<4:36:09,  8.74s/it] 63%|██████▎   | 3256/5150 [7:54:44<4:34:56,  8.71s/it] 63%|██████▎   | 3257/5150 [7:54:53<4:34:04,  8.69s/it] 63%|██████▎   | 3258/5150 [7:55:01<4:33:25,  8.67s/it] 63%|██████▎   | 3259/5150 [7:55:10<4:32:56,  8.66s/it] 63%|██████▎   | 3260/5150 [7:55:19<4:35:19,  8.74s/it]                                                       {'loss': '5.009e-05', 'grad_norm': '0.01607', 'learning_rate': '7.149e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '152.4', 'tokens/total': 53420032, 'tokens/trainable': 16910544, 'epoch': '3.163'}
+ 63%|██████���   | 3260/5150 [7:55:19<4:35:19,  8.74s/it] 63%|██████▎   | 3261/5150 [7:55:28<4:34:13,  8.71s/it] 63%|██████▎   | 3262/5150 [7:55:36<4:33:20,  8.69s/it] 63%|██████▎   | 3263/5150 [7:55:45<4:32:41,  8.67s/it] 63%|██████▎   | 3264/5150 [7:55:54<4:34:53,  8.74s/it] 63%|██████▎   | 3265/5150 [7:56:02<4:33:42,  8.71s/it] 63%|██████▎   | 3266/5150 [7:56:11<4:32:53,  8.69s/it] 63%|██████▎   | 3267/5150 [7:56:20<4:32:11,  8.67s/it] 63%|██████▎   | 3268/5150 [7:56:28<4:31:38,  8.66s/it] 63%|██████▎   | 3269/5150 [7:56:37<4:33:59,  8.74s/it] 63%|██████▎   | 3270/5150 [7:56:46<4:32:47,  8.71s/it]                                                       {'loss': '0.0001048', 'grad_norm': '0.0003636', 'learning_rate': '7.084e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '147.5', 'tokens/total': 53583872, 'tokens/trainable': 16962572, 'epoch': '3.173'}
+ 63%|██████▎   | 3270/5150 [7:56:46<4:32:47,  8.71s/it] 64%|██████▎   | 3271/5150 [7:56:55<4:31:59,  8.69s/it] 64%|██████▎   | 3272/5150 [7:57:03<4:31:20,  8.67s/it] 64%|██████▎   | 3273/5150 [7:57:12<4:33:30,  8.74s/it] 64%|██████▎   | 3274/5150 [7:57:21<4:32:20,  8.71s/it] 64%|██████▎   | 3275/5150 [7:57:29<4:31:28,  8.69s/it] 64%|██████▎   | 3276/5150 [7:57:38<4:30:46,  8.67s/it] 64%|██████▎   | 3277/5150 [7:57:47<4:30:12,  8.66s/it] 64%|██████▎   | 3278/5150 [7:57:56<4:32:31,  8.73s/it] 64%|██████▎   | 3279/5150 [7:58:04<4:31:22,  8.70s/it] 64%|██████▎   | 3280/5150 [7:58:13<4:30:34,  8.68s/it]                                                       {'loss': '2.025e-05', 'grad_norm': '0.0003251', 'learning_rate': '7.02e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '146.3', 'tokens/total': 53747712, 'tokens/trainable': 17014648, 'epoch': '3.182'}
+ 64%|██████▎   | 3280/5150 [7:58:13<4:30:34,  8.68s/it] 64%|██████▎   | 3281/5150 [7:58:21<4:29:59,  8.67s/it] 64%|██████▎   | 3282/5150 [7:58:30<4:32:26,  8.75s/it] 64%|██████▎   | 3283/5150 [7:58:39<4:31:19,  8.72s/it] 64%|██████▍   | 3284/5150 [7:58:48<4:30:26,  8.70s/it] 64%|██████▍   | 3285/5150 [7:58:56<4:29:46,  8.68s/it] 64%|██████▍   | 3286/5150 [7:59:05<4:29:12,  8.67s/it] 64%|██████▍   | 3287/5150 [7:59:14<4:31:31,  8.74s/it] 64%|██████▍   | 3288/5150 [7:59:22<4:30:21,  8.71s/it] 64%|██████▍   | 3289/5150 [7:59:31<4:29:32,  8.69s/it] 64%|██████▍   | 3290/5150 [7:59:40<4:28:56,  8.68s/it]                                                       {'loss': '2.63e-06', 'grad_norm': '0.0003458', 'learning_rate': '6.955e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '145.7', 'tokens/total': 53911552, 'tokens/trainable': 17066310, 'epoch': '3.192'}
+ 64%|██████▍   | 3290/5150 [7:59:40<4:28:56,  8.68s/it] 64%|██████▍   | 3291/5150 [7:59:49<4:31:09,  8.75s/it] 64%|██████▍   | 3292/5150 [7:59:57<4:29:55,  8.72s/it] 64%|██████▍   | 3293/5150 [8:00:06<4:29:01,  8.69s/it] 64%|██████▍   | 3294/5150 [8:00:15<4:28:21,  8.68s/it] 64%|██████▍   | 3295/5150 [8:00:23<4:27:53,  8.66s/it] 64%|██████▍   | 3296/5150 [8:00:32<4:30:12,  8.74s/it] 64%|██████▍   | 3297/5150 [8:00:41<4:29:00,  8.71s/it] 64%|██████▍   | 3298/5150 [8:00:49<4:28:08,  8.69s/it] 64%|██████▍   | 3299/5150 [8:00:58<4:27:29,  8.67s/it] 64%|██████▍   | 3300/5150 [8:01:07<4:29:46,  8.75s/it]                                                       {'loss': '0.0001466', 'grad_norm': '0.02891', 'learning_rate': '6.89e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '145.3', 'tokens/total': 54075392, 'tokens/trainable': 17117856, 'epoch': '3.202'}
+ 64%|██████▍   | 3300/5150 [8:01:07<4:29:46,  8.75s/it] 64%|██████▍   | 3301/5150 [8:01:16<4:28:35,  8.72s/it] 64%|██████▍   | 3302/5150 [8:01:24<4:27:38,  8.69s/it] 64%|██████▍   | 3303/5150 [8:01:33<4:26:56,  8.67s/it] 64%|██████▍   | 3304/5150 [8:01:42<4:26:26,  8.66s/it] 64%|██████▍   | 3305/5150 [8:01:50<4:28:50,  8.74s/it] 64%|██████▍   | 3306/5150 [8:01:59<4:27:40,  8.71s/it] 64%|██████▍   | 3307/5150 [8:02:08<4:26:50,  8.69s/it] 64%|██████▍   | 3308/5150 [8:02:16<4:26:10,  8.67s/it] 64%|██████▍   | 3309/5150 [8:02:25<4:28:20,  8.75s/it] 64%|██████▍   | 3310/5150 [8:02:34<4:27:08,  8.71s/it]                                                       {'loss': '3.338e-06', 'grad_norm': '2.63e-05', 'learning_rate': '6.826e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '142.4', 'tokens/total': 54239232, 'tokens/trainable': 17169760, 'epoch': '3.211'}
+ 64%|██████▍   | 3310/5150 [8:02:34<4:27:08,  8.71s/it] 64%|██████▍   | 3311/5150 [8:02:43<4:26:20,  8.69s/it] 64%|██████▍   | 3312/5150 [8:02:51<4:25:44,  8.67s/it] 64%|██████▍   | 3313/5150 [8:03:00<4:25:17,  8.66s/it] 64%|██████▍   | 3314/5150 [8:03:09<4:27:34,  8.74s/it] 64%|██████▍   | 3315/5150 [8:03:17<4:26:30,  8.71s/it] 64%|██████▍   | 3316/5150 [8:03:26<4:25:45,  8.69s/it] 64%|██████▍   | 3317/5150 [8:03:35<4:25:09,  8.68s/it] 64%|██████▍   | 3318/5150 [8:03:44<4:27:20,  8.76s/it] 64%|██████▍   | 3319/5150 [8:03:52<4:26:11,  8.72s/it] 64%|██████▍   | 3320/5150 [8:04:01<4:25:19,  8.70s/it]                                                       {'loss': '8.715e-06', 'grad_norm': '0.002285', 'learning_rate': '6.762e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '149.3', 'tokens/total': 54403072, 'tokens/trainable': 17221802, 'epoch': '3.221'}
+ 64%|██████▍   | 3320/5150 [8:04:01<4:25:19,  8.70s/it] 64%|██████▍   | 3321/5150 [8:04:10<4:24:40,  8.68s/it] 65%|██████▍   | 3322/5150 [8:04:18<4:24:09,  8.67s/it] 65%|██████▍   | 3323/5150 [8:04:27<4:26:26,  8.75s/it] 65%|██████▍   | 3324/5150 [8:04:36<4:25:18,  8.72s/it] 65%|██████▍   | 3325/5150 [8:04:44<4:24:25,  8.69s/it] 65%|██████▍   | 3326/5150 [8:04:53<4:23:46,  8.68s/it] 65%|██████▍   | 3327/5150 [8:05:02<4:25:52,  8.75s/it] 65%|██████▍   | 3328/5150 [8:05:11<4:24:38,  8.71s/it] 65%|██████▍   | 3329/5150 [8:05:19<4:23:45,  8.69s/it] 65%|██████▍   | 3330/5150 [8:05:28<4:23:04,  8.67s/it]                                                       {'loss': '7.243e-05', 'grad_norm': '0.0004079', 'learning_rate': '6.698e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '143.5', 'tokens/total': 54566912, 'tokens/trainable': 17273904, 'epoch': '3.231'}
+ 65%|██████▍   | 3330/5150 [8:05:28<4:23:04,  8.67s/it] 65%|██████▍   | 3331/5150 [8:05:37<4:22:34,  8.66s/it] 65%|██████▍   | 3332/5150 [8:05:45<4:24:48,  8.74s/it] 65%|██████▍   | 3333/5150 [8:05:54<4:23:37,  8.71s/it] 65%|██████▍   | 3334/5150 [8:06:03<4:22:48,  8.68s/it] 65%|██████▍   | 3335/5150 [8:06:11<4:22:10,  8.67s/it] 65%|██████▍   | 3336/5150 [8:06:20<4:24:23,  8.75s/it] 65%|██████▍   | 3337/5150 [8:06:29<4:23:08,  8.71s/it] 65%|██████▍   | 3338/5150 [8:06:38<4:22:16,  8.68s/it] 65%|██████▍   | 3339/5150 [8:06:46<4:21:37,  8.67s/it] 65%|██████▍   | 3340/5150 [8:06:55<4:21:03,  8.65s/it]                                                       {'loss': '0.0001011', 'grad_norm': '0.06515', 'learning_rate': '6.634e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '143.9', 'tokens/total': 54730752, 'tokens/trainable': 17326080, 'epoch': '3.241'}
+ 65%|██████▍   | 3340/5150 [8:06:55<4:21:03,  8.65s/it] 65%|██████▍   | 3341/5150 [8:07:04<4:23:15,  8.73s/it] 65%|██████▍   | 3342/5150 [8:07:12<4:22:14,  8.70s/it] 65%|██████▍   | 3343/5150 [8:07:21<4:21:29,  8.68s/it] 65%|██████▍   | 3344/5150 [8:07:30<4:20:54,  8.67s/it] 65%|██████▍   | 3345/5150 [8:07:38<4:20:22,  8.65s/it] 65%|██████▍   | 3346/5150 [8:07:47<4:22:40,  8.74s/it] 65%|██████▍   | 3347/5150 [8:07:56<4:21:35,  8.71s/it] 65%|██████▌   | 3348/5150 [8:08:04<4:20:42,  8.68s/it] 65%|██████▌   | 3349/5150 [8:08:13<4:20:04,  8.66s/it] 65%|██████▌   | 3350/5150 [8:08:22<4:22:16,  8.74s/it]                                                       {'loss': '0.0001251', 'grad_norm': '0.001855', 'learning_rate': '6.57e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '157.3', 'tokens/total': 54894592, 'tokens/trainable': 17377928, 'epoch': '3.25'}
+ 65%|██████▌   | 3350/5150 [8:08:22<4:22:16,  8.74s/it] 65%|██████▌   | 3351/5150 [8:08:31<4:21:07,  8.71s/it] 65%|██████▌   | 3352/5150 [8:08:39<4:20:14,  8.68s/it] 65%|██████▌   | 3353/5150 [8:08:48<4:19:34,  8.67s/it] 65%|██████▌   | 3354/5150 [8:08:56<4:19:06,  8.66s/it] 65%|██████▌   | 3355/5150 [8:09:05<4:21:18,  8.73s/it] 65%|██████▌   | 3356/5150 [8:09:14<4:20:12,  8.70s/it] 65%|██████▌   | 3357/5150 [8:09:23<4:19:25,  8.68s/it] 65%|██████▌   | 3358/5150 [8:09:31<4:18:48,  8.67s/it] 65%|██████▌   | 3359/5150 [8:09:40<4:20:59,  8.74s/it] 65%|██████▌   | 3360/5150 [8:09:49<4:19:48,  8.71s/it]                                                       {'loss': '0.0002476', 'grad_norm': '5.456e-05', 'learning_rate': '6.507e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '147.3', 'tokens/total': 55058432, 'tokens/trainable': 17429242, 'epoch': '3.26'}
+ 65%|██████▌   | 3360/5150 [8:09:49<4:19:48,  8.71s/it] 65%|██████▌   | 3361/5150 [8:09:57<4:18:56,  8.68s/it] 65%|██████▌   | 3362/5150 [8:10:06<4:18:18,  8.67s/it] 65%|██████▌   | 3363/5150 [8:10:15<4:17:48,  8.66s/it] 65%|██████▌   | 3364/5150 [8:10:24<4:20:01,  8.74s/it] 65%|██████▌   | 3365/5150 [8:10:32<4:18:53,  8.70s/it] 65%|██████▌   | 3366/5150 [8:10:41<4:18:08,  8.68s/it] 65%|██████▌   | 3367/5150 [8:10:50<4:17:36,  8.67s/it] 65%|██████▌   | 3368/5150 [8:10:58<4:19:45,  8.75s/it] 65%|██████▌   | 3369/5150 [8:11:07<4:18:33,  8.71s/it] 65%|██████▌   | 3370/5150 [8:11:16<4:17:43,  8.69s/it]                                                       {'loss': '0.0001062', 'grad_norm': '0.001334', 'learning_rate': '6.443e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '141.3', 'tokens/total': 55222272, 'tokens/trainable': 17481012, 'epoch': '3.27'}
+ 65%|██████▌   | 3370/5150 [8:11:16<4:17:43,  8.69s/it] 65%|██████▌   | 3371/5150 [8:11:24<4:17:06,  8.67s/it] 65%|██████▌   | 3372/5150 [8:11:33<4:16:35,  8.66s/it] 65%|██████▌   | 3373/5150 [8:11:42<4:18:45,  8.74s/it] 66%|██████▌   | 3374/5150 [8:11:51<4:17:36,  8.70s/it] 66%|██████▌   | 3375/5150 [8:11:59<4:16:46,  8.68s/it] 66%|██████▌   | 3376/5150 [8:12:08<4:16:10,  8.66s/it] 66%|██████▌   | 3377/5150 [8:12:17<4:18:20,  8.74s/it] 66%|██████▌   | 3378/5150 [8:12:25<4:17:11,  8.71s/it] 66%|██████▌   | 3379/5150 [8:12:34<4:16:19,  8.68s/it] 66%|██████▌   | 3380/5150 [8:12:43<4:15:43,  8.67s/it]                                                       {'loss': '6.515e-05', 'grad_norm': '0.01188', 'learning_rate': '6.38e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '145.5', 'tokens/total': 55386112, 'tokens/trainable': 17533080, 'epoch': '3.279'}
+ 66%|██████▌   | 3380/5150 [8:12:43<4:15:43,  8.67s/it] 66%|██████▌   | 3381/5150 [8:12:51<4:15:12,  8.66s/it] 66%|██████▌   | 3382/5150 [8:13:00<4:17:19,  8.73s/it] 66%|██████▌   | 3383/5150 [8:13:09<4:16:14,  8.70s/it] 66%|██████▌   | 3384/5150 [8:13:17<4:15:26,  8.68s/it] 66%|██████▌   | 3385/5150 [8:13:26<4:14:51,  8.66s/it] 66%|██████▌   | 3386/5150 [8:13:35<4:16:57,  8.74s/it] 66%|██████▌   | 3387/5150 [8:13:44<4:15:50,  8.71s/it] 66%|██████▌   | 3388/5150 [8:13:52<4:14:59,  8.68s/it] 66%|██████▌   | 3389/5150 [8:14:01<4:14:20,  8.67s/it] 66%|██████▌   | 3390/5150 [8:14:09<4:13:54,  8.66s/it]                                                       {'loss': '8.987e-05', 'grad_norm': '0.005176', 'learning_rate': '6.317e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '146.7', 'tokens/total': 55549952, 'tokens/trainable': 17584698, 'epoch': '3.289'}
+ 66%|██████▌   | 3390/5150 [8:14:09<4:13:54,  8.66s/it] 66%|██████▌   | 3391/5150 [8:14:18<4:16:11,  8.74s/it] 66%|██████▌   | 3392/5150 [8:14:27<4:15:08,  8.71s/it] 66%|██████▌   | 3393/5150 [8:14:36<4:14:21,  8.69s/it] 66%|██████▌   | 3394/5150 [8:14:44<4:13:44,  8.67s/it] 66%|██████▌   | 3395/5150 [8:14:53<4:13:15,  8.66s/it] 66%|██████▌   | 3396/5150 [8:15:02<4:15:22,  8.74s/it] 66%|██████▌   | 3397/5150 [8:15:10<4:14:15,  8.70s/it] 66%|██████▌   | 3398/5150 [8:15:19<4:13:28,  8.68s/it] 66%|██████▌   | 3399/5150 [8:15:28<4:12:55,  8.67s/it] 66%|██████▌   | 3400/5150 [8:15:37<4:15:02,  8.74s/it]                                                       {'loss': '0.0005629', 'grad_norm': '0.03687', 'learning_rate': '6.254e-05', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '137.6', 'tokens/total': 55713792, 'tokens/trainable': 17636148, 'epoch': '3.299'}
+ 66%|██████▌   | 3400/5150 [8:15:37<4:15:02,  8.74s/it] 66%|██████▌   | 3401/5150 [8:15:45<4:13:55,  8.71s/it] 66%|██████▌   | 3402/5150 [8:15:54<4:13:04,  8.69s/it] 66%|██████▌   | 3403/5150 [8:16:03<4:12:25,  8.67s/it] 66%|██████▌   | 3404/5150 [8:16:11<4:11:56,  8.66s/it] 66%|██████▌   | 3405/5150 [8:16:20<4:14:00,  8.73s/it] 66%|██████▌   | 3406/5150 [8:16:29<4:12:58,  8.70s/it] 66%|██████▌   | 3407/5150 [8:16:37<4:12:11,  8.68s/it] 66%|██████▌   | 3408/5150 [8:16:46<4:11:36,  8.67s/it] 66%|██████▌   | 3409/5150 [8:16:55<4:13:45,  8.75s/it] 66%|██████▌   | 3410/5150 [8:17:04<4:12:35,  8.71s/it]                                                       {'loss': '0.001051', 'grad_norm': '0.0007529', 'learning_rate': '6.191e-05', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '146', 'tokens/total': 55877632, 'tokens/trainable': 17688300, 'epoch': '3.308'}
+ 66%|██████▌   | 3410/5150 [8:17:04<4:12:35,  8.71s/it] 66%|██████▌   | 3411/5150 [8:17:12<4:11:50,  8.69s/it] 66%|██████▋   | 3412/5150 [8:17:21<4:11:18,  8.68s/it] 66%|██████▋   | 3413/5150 [8:17:30<4:13:37,  8.76s/it] 66%|██████▋   | 3414/5150 [8:17:38<4:12:25,  8.72s/it] 66%|██████▋   | 3415/5150 [8:17:47<4:11:30,  8.70s/it] 66%|██████▋   | 3416/5150 [8:17:56<4:10:50,  8.68s/it] 66%|██████▋   | 3417/5150 [8:18:04<4:10:18,  8.67s/it] 66%|██████▋   | 3418/5150 [8:18:13<4:12:17,  8.74s/it] 66%|██████▋   | 3419/5150 [8:18:22<4:11:10,  8.71s/it] 66%|██████▋   | 3420/5150 [8:18:30<4:10:22,  8.68s/it]                                                       {'loss': '0.0002168', 'grad_norm': '0.002166', 'learning_rate': '6.129e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '141.8', 'tokens/total': 56041472, 'tokens/trainable': 17740576, 'epoch': '3.318'}
+ 66%|██████▋   | 3420/5150 [8:18:30<4:10:22,  8.68s/it] 66%|██████▋   | 3421/5150 [8:18:39<4:09:47,  8.67s/it] 66%|██████▋   | 3422/5150 [8:18:48<4:09:21,  8.66s/it] 66%|██████▋   | 3423/5150 [8:18:57<4:11:39,  8.74s/it] 66%|██████▋   | 3424/5150 [8:19:05<4:10:37,  8.71s/it] 67%|██████▋   | 3425/5150 [8:19:14<4:09:48,  8.69s/it] 67%|██████▋   | 3426/5150 [8:19:23<4:09:12,  8.67s/it] 67%|██████▋   | 3427/5150 [8:19:32<4:11:23,  8.75s/it] 67%|██████▋   | 3428/5150 [8:19:40<4:10:12,  8.72s/it] 67%|██████▋   | 3429/5150 [8:19:49<4:09:18,  8.69s/it] 67%|██████▋   | 3430/5150 [8:19:57<4:08:43,  8.68s/it]                                                       {'loss': '0.0005049', 'grad_norm': '0.01552', 'learning_rate': '6.066e-05', 'ppl': '1.001', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '166.2', 'tokens/total': 56205312, 'tokens/trainable': 17792228, 'epoch': '3.328'}
+ 67%|██████▋   | 3430/5150 [8:19:57<4:08:43,  8.68s/it] 67%|██████▋   | 3431/5150 [8:20:06<4:08:15,  8.67s/it] 67%|██████▋   | 3432/5150 [8:20:15<4:10:28,  8.75s/it] 67%|██████▋   | 3433/5150 [8:20:24<4:09:25,  8.72s/it] 67%|██████▋   | 3434/5150 [8:20:32<4:08:37,  8.69s/it] 67%|██████▋   | 3435/5150 [8:20:41<4:08:00,  8.68s/it] 67%|██████▋   | 3436/5150 [8:20:50<4:10:04,  8.75s/it] 67%|██████▋   | 3437/5150 [8:20:59<4:08:52,  8.72s/it] 67%|██████▋   | 3438/5150 [8:21:07<4:08:01,  8.69s/it] 67%|██████▋   | 3439/5150 [8:21:16<4:07:23,  8.68s/it] 67%|██████▋   | 3440/5150 [8:21:24<4:06:57,  8.66s/it]                                                       {'loss': '0.0002246', 'grad_norm': '0.0238', 'learning_rate': '6.004e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '143.9', 'tokens/total': 56369152, 'tokens/trainable': 17844032, 'epoch': '3.338'}
+ 67%|██████▋   | 3440/5150 [8:21:24<4:06:57,  8.66s/it] 67%|██████▋   | 3441/5150 [8:21:33<4:09:07,  8.75s/it] 67%|██████▋   | 3442/5150 [8:21:42<4:08:05,  8.72s/it] 67%|██████▋   | 3443/5150 [8:21:51<4:07:17,  8.69s/it] 67%|██████▋   | 3444/5150 [8:21:59<4:06:39,  8.68s/it] 67%|██████▋   | 3445/5150 [8:22:08<4:08:37,  8.75s/it] 67%|██████▋   | 3446/5150 [8:22:17<4:07:28,  8.71s/it] 67%|██████▋   | 3447/5150 [8:22:25<4:06:40,  8.69s/it] 67%|██████▋   | 3448/5150 [8:22:34<4:06:02,  8.67s/it] 67%|██████▋   | 3449/5150 [8:22:43<4:05:36,  8.66s/it] 67%|██████▋   | 3450/5150 [8:22:52<4:07:44,  8.74s/it]                                                       {'loss': '0.0001249', 'grad_norm': '0.01011', 'learning_rate': '5.942e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '160.1', 'tokens/total': 56532992, 'tokens/trainable': 17895468, 'epoch': '3.347'}
+ 67%|██████▋   | 3450/5150 [8:22:52<4:07:44,  8.74s/it] 67%|██████▋   | 3451/5150 [8:23:00<4:06:41,  8.71s/it] 67%|██████▋   | 3452/5150 [8:23:09<4:05:55,  8.69s/it] 67%|██████▋   | 3453/5150 [8:23:18<4:05:25,  8.68s/it] 67%|██████▋   | 3454/5150 [8:23:27<4:07:25,  8.75s/it] 67%|██████▋   | 3455/5150 [8:23:35<4:06:16,  8.72s/it] 67%|██████▋   | 3456/5150 [8:23:44<4:05:30,  8.70s/it] 67%|██████▋   | 3457/5150 [8:23:52<4:04:54,  8.68s/it] 67%|██████▋   | 3458/5150 [8:24:01<4:04:28,  8.67s/it] 67%|██████▋   | 3459/5150 [8:24:10<4:06:30,  8.75s/it] 67%|██████▋   | 3460/5150 [8:24:19<4:05:24,  8.71s/it]                                                       {'loss': '0.0001646', 'grad_norm': '0.0005558', 'learning_rate': '5.88e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '147.2', 'tokens/total': 56696832, 'tokens/trainable': 17947594, 'epoch': '3.357'}
+ 67%|██████▋   | 3460/5150 [8:24:19<4:05:24,  8.71s/it] 67%|██████▋   | 3461/5150 [8:24:27<4:04:35,  8.69s/it] 67%|██████▋   | 3462/5150 [8:24:36<4:03:57,  8.67s/it] 67%|██████▋   | 3463/5150 [8:24:45<4:05:51,  8.74s/it] 67%|██████▋   | 3464/5150 [8:24:53<4:04:44,  8.71s/it] 67%|██████▋   | 3465/5150 [8:25:02<4:03:55,  8.69s/it] 67%|██████▋   | 3466/5150 [8:25:11<4:03:16,  8.67s/it] 67%|██████▋   | 3467/5150 [8:25:19<4:02:49,  8.66s/it] 67%|██████▋   | 3468/5150 [8:25:28<4:04:59,  8.74s/it] 67%|██████▋   | 3469/5150 [8:25:37<4:03:53,  8.71s/it] 67%|██████▋   | 3470/5150 [8:25:46<4:03:08,  8.68s/it]                                                       {'loss': '0.0002362', 'grad_norm': '0.0327', 'learning_rate': '5.818e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '145.9', 'tokens/total': 56860672, 'tokens/trainable': 17998968, 'epoch': '3.367'}
+ 67%|██████▋   | 3470/5150 [8:25:46<4:03:08,  8.68s/it] 67%|██████▋   | 3471/5150 [8:25:54<4:02:33,  8.67s/it] 67%|██████▋   | 3472/5150 [8:26:03<4:02:04,  8.66s/it] 67%|██████▋   | 3473/5150 [8:26:12<4:04:09,  8.74s/it] 67%|██████▋   | 3474/5150 [8:26:20<4:03:04,  8.70s/it] 67%|██████▋   | 3475/5150 [8:26:29<4:02:16,  8.68s/it] 67%|██████▋   | 3476/5150 [8:26:38<4:01:41,  8.66s/it] 68%|██████▊   | 3477/5150 [8:26:47<4:03:45,  8.74s/it] 68%|██████▊   | 3478/5150 [8:26:55<4:02:39,  8.71s/it] 68%|██████▊   | 3479/5150 [8:27:04<4:01:52,  8.68s/it] 68%|██████▊   | 3480/5150 [8:27:12<4:01:15,  8.67s/it]                                                       {'loss': '0.0002615', 'grad_norm': '0.0002902', 'learning_rate': '5.757e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '153.1', 'tokens/total': 57024512, 'tokens/trainable': 18050972, 'epoch': '3.376'}
+ 68%|██████▊   | 3480/5150 [8:27:12<4:01:15,  8.67s/it] 68%|██████▊   | 3481/5150 [8:27:21<4:00:47,  8.66s/it] 68%|██████▊   | 3482/5150 [8:27:30<4:02:53,  8.74s/it] 68%|██████▊   | 3483/5150 [8:27:39<4:01:49,  8.70s/it] 68%|██████▊   | 3484/5150 [8:27:47<4:01:02,  8.68s/it] 68%|██████▊   | 3485/5150 [8:27:56<4:00:26,  8.66s/it] 68%|██████▊   | 3486/5150 [8:28:05<4:02:23,  8.74s/it] 68%|██████▊   | 3487/5150 [8:28:13<4:01:16,  8.71s/it] 68%|██████▊   | 3488/5150 [8:28:22<4:00:33,  8.68s/it] 68%|██████▊   | 3489/5150 [8:28:31<4:00:00,  8.67s/it] 68%|██████▊   | 3490/5150 [8:28:39<3:59:32,  8.66s/it]                                                       {'loss': '0.0001747', 'grad_norm': '0.0005522', 'learning_rate': '5.696e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '149.3', 'tokens/total': 57188352, 'tokens/trainable': 18102804, 'epoch': '3.386'}
+ 68%|██████▊   | 3490/5150 [8:28:39<3:59:32,  8.66s/it] 68%|██████▊   | 3491/5150 [8:28:48<4:01:38,  8.74s/it] 68%|██████▊   | 3492/5150 [8:28:57<4:00:32,  8.70s/it] 68%|██████▊   | 3493/5150 [8:29:05<3:59:45,  8.68s/it] 68%|██████▊   | 3494/5150 [8:29:14<3:59:12,  8.67s/it] 68%|██████▊   | 3495/5150 [8:29:23<4:01:09,  8.74s/it] 68%|██████▊   | 3496/5150 [8:29:32<4:00:02,  8.71s/it] 68%|██████▊   | 3497/5150 [8:29:40<3:59:13,  8.68s/it] 68%|██████▊   | 3498/5150 [8:29:49<3:58:37,  8.67s/it] 68%|██████▊   | 3499/5150 [8:29:58<3:58:08,  8.65s/it] 68%|██████▊   | 3500/5150 [8:30:06<4:00:06,  8.73s/it]                                                       {'loss': '4.419e-05', 'grad_norm': '0.0002019', 'learning_rate': '5.635e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '155.1', 'tokens/total': 57352192, 'tokens/trainable': 18155852, 'epoch': '3.396'}
+ 68%|██████▊   | 3500/5150 [8:30:06<4:00:06,  8.73s/it] 68%|██████▊   | 3501/5150 [8:30:15<3:59:05,  8.70s/it] 68%|██████▊   | 3502/5150 [8:30:24<3:58:24,  8.68s/it] 68%|██████▊   | 3503/5150 [8:30:32<3:57:49,  8.66s/it] 68%|██████▊   | 3504/5150 [8:30:41<3:59:45,  8.74s/it] 68%|██████▊   | 3505/5150 [8:30:50<3:58:40,  8.71s/it] 68%|██████▊   | 3506/5150 [8:30:58<3:57:54,  8.68s/it] 68%|██████▊   | 3507/5150 [8:31:07<3:57:19,  8.67s/it] 68%|██████▊   | 3508/5150 [8:31:16<3:56:56,  8.66s/it] 68%|██████▊   | 3509/5150 [8:31:25<3:59:09,  8.74s/it] 68%|██████▊   | 3510/5150 [8:31:33<3:58:06,  8.71s/it]                                                       {'loss': '5.649e-05', 'grad_norm': '0.0006171', 'learning_rate': '5.574e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '147.4', 'tokens/total': 57516032, 'tokens/trainable': 18208518, 'epoch': '3.405'}
+ 68%|██████▊   | 3510/5150 [8:31:33<3:58:06,  8.71s/it] 68%|██████▊   | 3511/5150 [8:31:42<3:57:24,  8.69s/it] 68%|██████▊   | 3512/5150 [8:31:51<3:56:47,  8.67s/it] 68%|██████▊   | 3513/5150 [8:32:00<3:58:42,  8.75s/it] 68%|██████▊   | 3514/5150 [8:32:08<3:57:33,  8.71s/it] 68%|██████▊   | 3515/5150 [8:32:17<3:56:40,  8.69s/it] 68%|██████▊   | 3516/5150 [8:32:25<3:56:03,  8.67s/it] 68%|██████▊   | 3517/5150 [8:32:34<3:55:53,  8.67s/it] 68%|██████▊   | 3518/5150 [8:32:45<4:11:38,  9.25s/it] 68%|██████▊   | 3519/5150 [8:32:53<4:06:32,  9.07s/it] 68%|██████▊   | 3520/5150 [8:33:02<4:02:50,  8.94s/it]                                                       {'loss': '1.756e-05', 'grad_norm': '0.006261', 'learning_rate': '5.513e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '155.2', 'tokens/total': 57679872, 'tokens/trainable': 18260832, 'epoch': '3.415'}
+ 68%|██████▊   | 3520/5150 [8:33:02<4:02:50,  8.94s/it] 68%|██████▊   | 3521/5150 [8:33:11<4:00:48,  8.87s/it] 68%|██████▊   | 3522/5150 [8:33:20<4:01:26,  8.90s/it] 68%|██████▊   | 3523/5150 [8:33:31<4:22:19,  9.67s/it] 68%|██████▊   | 3524/5150 [8:33:45<4:52:56, 10.81s/it] 68%|██████▊   | 3525/5150 [8:33:53<4:34:48, 10.15s/it] 68%|██████▊   | 3526/5150 [8:34:02<4:22:09,  9.69s/it] 68%|██████▊   | 3527/5150 [8:34:11<4:15:41,  9.45s/it] 69%|██████▊   | 3528/5150 [8:34:19<4:08:44,  9.20s/it] 69%|██████▊   | 3529/5150 [8:34:28<4:03:54,  9.03s/it] 69%|██████▊   | 3530/5150 [8:34:37<4:00:27,  8.91s/it]                                                       {'loss': '5.468e-05', 'grad_norm': '0.0002771', 'learning_rate': '5.453e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '146.4', 'tokens/total': 57843712, 'tokens/trainable': 18312584, 'epoch': '3.425'}
+ 69%|██████▊   | 3530/5150 [8:34:37<4:00:27,  8.91s/it] 69%|██████▊   | 3531/5150 [8:34:45<4:00:26,  8.91s/it] 69%|██████▊   | 3532/5150 [8:34:54<3:57:59,  8.83s/it] 69%|██████▊   | 3533/5150 [8:35:03<3:56:12,  8.76s/it] 69%|██████▊   | 3534/5150 [8:35:11<3:54:59,  8.72s/it] 69%|██████▊   | 3535/5150 [8:35:20<3:54:00,  8.69s/it] 69%|██████▊   | 3536/5150 [8:35:29<3:55:35,  8.76s/it] 69%|██████▊   | 3537/5150 [8:35:38<3:54:23,  8.72s/it] 69%|██████▊   | 3538/5150 [8:35:46<3:53:31,  8.69s/it] 69%|██████▊   | 3539/5150 [8:35:55<3:52:53,  8.67s/it] 69%|██████▊   | 3540/5150 [8:36:03<3:52:24,  8.66s/it]                                                       {'loss': '2.419e-05', 'grad_norm': '0.002401', 'learning_rate': '5.392e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '146.4', 'tokens/total': 58007552, 'tokens/trainable': 18364644, 'epoch': '3.435'}
+ 69%|██████▊   | 3540/5150 [8:36:03<3:52:24,  8.66s/it] 69%|██████▉   | 3541/5150 [8:36:12<3:54:21,  8.74s/it] 69%|██████▉   | 3542/5150 [8:36:21<3:53:16,  8.70s/it] 69%|██████▉   | 3543/5150 [8:36:30<3:52:30,  8.68s/it] 69%|██████▉   | 3544/5150 [8:36:38<3:51:53,  8.66s/it] 69%|██████▉   | 3545/5150 [8:36:47<3:53:47,  8.74s/it] 69%|██████▉   | 3546/5150 [8:36:56<3:52:42,  8.70s/it] 69%|██████▉   | 3547/5150 [8:37:04<3:51:56,  8.68s/it] 69%|██████▉   | 3548/5150 [8:37:13<3:51:22,  8.67s/it] 69%|██████▉   | 3549/5150 [8:37:22<3:50:55,  8.65s/it] 69%|██████▉   | 3550/5150 [8:37:31<3:52:53,  8.73s/it]                                                       {'loss': '0.0001064', 'grad_norm': '0.02605', 'learning_rate': '5.332e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '152.8', 'tokens/total': 58171392, 'tokens/trainable': 18416366, 'epoch': '3.444'}
+ 69%|██████▉   | 3550/5150 [8:37:31<3:52:53,  8.73s/it] 69%|██████▉   | 3551/5150 [8:37:39<3:51:54,  8.70s/it] 69%|██████▉   | 3552/5150 [8:37:48<3:51:08,  8.68s/it] 69%|██████▉   | 3553/5150 [8:37:56<3:50:34,  8.66s/it] 69%|██████▉   | 3554/5150 [8:38:05<3:52:26,  8.74s/it] 69%|██████▉   | 3555/5150 [8:38:14<3:51:28,  8.71s/it] 69%|██████▉   | 3556/5150 [8:38:23<3:50:40,  8.68s/it] 69%|██████▉   | 3557/5150 [8:38:31<3:50:04,  8.67s/it] 69%|██████▉   | 3558/5150 [8:38:40<3:49:38,  8.65s/it] 69%|██████▉   | 3559/5150 [8:38:49<3:51:33,  8.73s/it] 69%|██████▉   | 3560/5150 [8:38:57<3:50:33,  8.70s/it]                                                       {'loss': '0.000107', 'grad_norm': '0.002334', 'learning_rate': '5.272e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '157.6', 'tokens/total': 58335232, 'tokens/trainable': 18468056, 'epoch': '3.454'}
+ 69%|██████▉   | 3560/5150 [8:38:57<3:50:33,  8.70s/it] 69%|██████▉   | 3561/5150 [8:39:06<3:49:52,  8.68s/it] 69%|██████▉   | 3562/5150 [8:39:15<3:49:19,  8.66s/it] 69%|██████▉   | 3563/5150 [8:39:24<3:51:15,  8.74s/it] 69%|██████▉   | 3564/5150 [8:39:32<3:50:17,  8.71s/it] 69%|██████▉   | 3565/5150 [8:39:41<3:49:28,  8.69s/it] 69%|██████▉   | 3566/5150 [8:39:49<3:48:50,  8.67s/it] 69%|██████▉   | 3567/5150 [8:39:58<3:48:22,  8.66s/it] 69%|██████▉   | 3568/5150 [8:40:07<3:50:14,  8.73s/it] 69%|██████▉   | 3569/5150 [8:40:16<3:49:16,  8.70s/it] 69%|██████▉   | 3570/5150 [8:40:24<3:48:31,  8.68s/it]                                                       {'loss': '1.887e-05', 'grad_norm': '0.001152', 'learning_rate': '5.213e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '157.5', 'tokens/total': 58499072, 'tokens/trainable': 18520444, 'epoch': '3.464'}
+ 69%|██████▉   | 3570/5150 [8:40:24<3:48:31,  8.68s/it] 69%|██████▉   | 3571/5150 [8:40:33<3:47:58,  8.66s/it] 69%|██████▉   | 3572/5150 [8:40:42<3:47:34,  8.65s/it] 69%|██████▉   | 3573/5150 [8:40:50<3:49:34,  8.73s/it] 69%|██████▉   | 3574/5150 [8:40:59<3:48:37,  8.70s/it] 69%|██████▉   | 3575/5150 [8:41:08<3:48:01,  8.69s/it] 69%|██████▉   | 3576/5150 [8:41:16<3:47:29,  8.67s/it] 69%|██████▉   | 3577/5150 [8:41:25<3:49:24,  8.75s/it] 69%|██████▉   | 3578/5150 [8:41:34<3:48:21,  8.72s/it] 69%|██████▉   | 3579/5150 [8:41:43<3:47:36,  8.69s/it] 70%|██████▉   | 3580/5150 [8:41:51<3:46:58,  8.67s/it]                                                       {'loss': '4.794e-05', 'grad_norm': '0.009432', 'learning_rate': '5.153e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '149.8', 'tokens/total': 58662912, 'tokens/trainable': 18572592, 'epoch': '3.473'}
+ 70%|██████▉   | 3580/5150 [8:41:51<3:46:58,  8.67s/it] 70%|██████▉   | 3581/5150 [8:42:00<3:46:27,  8.66s/it] 70%|██████▉   | 3582/5150 [8:42:09<3:48:17,  8.74s/it] 70%|██████▉   | 3583/5150 [8:42:17<3:47:18,  8.70s/it] 70%|██████▉   | 3584/5150 [8:42:26<3:46:35,  8.68s/it] 70%|██████▉   | 3585/5150 [8:42:35<3:46:00,  8.66s/it] 70%|██████▉   | 3586/5150 [8:42:44<3:47:56,  8.74s/it] 70%|██████▉   | 3587/5150 [8:42:52<3:46:54,  8.71s/it] 70%|██████▉   | 3588/5150 [8:43:01<3:46:10,  8.69s/it] 70%|██████▉   | 3589/5150 [8:43:09<3:45:35,  8.67s/it] 70%|██████▉   | 3590/5150 [8:43:18<3:45:06,  8.66s/it]                                                       {'loss': '3.142e-05', 'grad_norm': '0.001163', 'learning_rate': '5.094e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '154.6', 'tokens/total': 58826752, 'tokens/trainable': 18624676, 'epoch': '3.483'}
+ 70%|██████▉   | 3590/5150 [8:43:18<3:45:06,  8.66s/it] 70%|██████▉   | 3591/5150 [8:43:27<3:47:03,  8.74s/it] 70%|██████▉   | 3592/5150 [8:43:36<3:46:02,  8.70s/it] 70%|██████▉   | 3593/5150 [8:43:44<3:45:17,  8.68s/it] 70%|██████▉   | 3594/5150 [8:43:53<3:44:44,  8.67s/it] 70%|██████▉   | 3595/5150 [8:44:02<3:46:28,  8.74s/it] 70%|██████▉   | 3596/5150 [8:44:10<3:45:29,  8.71s/it] 70%|██████▉   | 3597/5150 [8:44:19<3:44:46,  8.68s/it] 70%|██████▉   | 3598/5150 [8:44:28<3:44:11,  8.67s/it] 70%|██████▉   | 3599/5150 [8:44:36<3:43:45,  8.66s/it] 70%|██████▉   | 3600/5150 [8:44:45<3:45:42,  8.74s/it]                                                       {'loss': '2.375e-05', 'grad_norm': '0.0003091', 'learning_rate': '5.035e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '139.2', 'tokens/total': 58990592, 'tokens/trainable': 18676526, 'epoch': '3.493'}
+ 70%|██████▉   | 3600/5150 [8:44:45<3:45:42,  8.74s/it] 70%|██████▉   | 3601/5150 [8:44:54<3:44:45,  8.71s/it] 70%|██████▉   | 3602/5150 [8:45:03<3:44:02,  8.68s/it] 70%|██████▉   | 3603/5150 [8:45:11<3:43:28,  8.67s/it] 70%|██████▉   | 3604/5150 [8:45:20<3:45:17,  8.74s/it] 70%|███████   | 3605/5150 [8:45:29<3:44:14,  8.71s/it][2026-03-05 12:18:09,357] [INFO] [axolotl.core.trainers.base.evaluate:400] [PID:1482537] Running evaluation step...
+[2026-03-05 12:18:10,442] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.5399806499481201
+[2026-03-05 12:18:11,175] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.7331557273864746
+[2026-03-05 12:18:11,971] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.7956986427307129
+[2026-03-05 12:18:12,767] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.7955532073974609
+[2026-03-05 12:18:12,768] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:1482537] gather_len_batches: [17]
+
+  0%|          | 0/17 [00:00<?, ?it/s][A
+ 12%|█▏        | 2/17 [00:00<00:04,  3.26it/s][A
+ 18%|█▊        | 3/17 [00:01<00:06,  2.29it/s][A
+ 24%|██▎       | 4/17 [00:01<00:06,  1.98it/s][A
+ 29%|██▉       | 5/17 [00:02<00:06,  1.73it/s][A
+ 35%|███▌      | 6/17 [00:03<00:06,  1.70it/s][A
+ 41%|████      | 7/17 [00:03<00:05,  1.67it/s][A
+ 47%|████▋     | 8/17 [00:04<00:05,  1.65it/s][A
+ 53%|█████▎    | 9/17 [00:05<00:04,  1.60it/s][A
+ 59%|█████▉    | 10/17 [00:05<00:04,  1.62it/s][A
+ 65%|██████▍   | 11/17 [00:06<00:03,  1.62it/s][A
+ 71%|███████   | 12/17 [00:06<00:03,  1.62it/s][A
+ 76%|████���██▋  | 13/17 [00:07<00:02,  1.56it/s][A
+ 82%|████████▏ | 14/17 [00:08<00:01,  1.58it/s][A
+ 88%|████████▊ | 15/17 [00:08<00:01,  1.59it/s][A
+ 94%|█████████▍| 16/17 [00:09<00:00,  1.60it/s][ATraceback (most recent call last):
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 300, in _run_finalizers
+    finalizer()
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 224, in __call__
+    res = self._callback(*self._args, **self._kwargs)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 133, in _remove_temp_dir
+    rmtree(tempdir)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 725, in rmtree
+    _rmtree_safe_fd(fd, path, onerror)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 681, in _rmtree_safe_fd
+    onerror(os.unlink, fullname, sys.exc_info())
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 679, in _rmtree_safe_fd
+    os.unlink(entry.name, dir_fd=topfd)
+OSError: [Errno 16] Device or resource busy: '.nfs00000000000862e800006109'
+
+100%|██████████| 17/17 [00:10<00:00,  1.52it/s][A                                                       
+                                               [A{'eval_loss': '0.0001762', 'eval_runtime': '11.82', 'eval_samples_per_second': '16.92', 'eval_steps_per_second': '8.462', 'eval_ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'epoch': '3.498', 'tokens/train_per_sec_per_gpu': '147.4'}
+ 70%|███████   | 3605/5150 [8:45:44<3:44:14,  8.71s/it]
+100%|██████████| 17/17 [00:10<00:00,  1.52it/s][A
+                                               [A 70%|███████   | 3606/5150 [8:45:53<5:41:32, 13.27s/it] 70%|███████   | 3607/5150 [8:46:01<5:05:29, 11.88s/it] 70%|███████   | 3608/5150 [8:46:10<4:40:15, 10.91s/it] 70%|███████   | 3609/5150 [8:46:19<4:22:33, 10.22s/it] 70%|███████   | 3610/5150 [8:46:27<4:12:45,  9.85s/it]                                                       {'loss': '8.288e-05', 'grad_norm': '0.0003534', 'learning_rate': '4.977e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '141.3', 'tokens/total': 59154432, 'tokens/trainable': 18728296, 'epoch': '3.502'}
+ 70%|███████   | 3610/5150 [8:46:27<4:12:45,  9.85s/it] 70%|███████   | 3611/5150 [8:46:36<4:03:14,  9.48s/it] 70%|███████   | 3612/5150 [8:46:45<3:56:28,  9.23s/it] 70%|███████   | 3613/5150 [8:46:53<3:51:45,  9.05s/it] 70%|███████   | 3614/5150 [8:47:02<3:48:27,  8.92s/it] 70%|███████   | 3615/5150 [8:47:11<3:48:26,  8.93s/it] 70%|███████   | 3616/5150 [8:47:20<3:46:04,  8.84s/it] 70%|███████   | 3617/5150 [8:47:28<3:44:23,  8.78s/it] 70%|███████   | 3618/5150 [8:47:37<3:43:08,  8.74s/it] 70%|███████   | 3619/5150 [8:47:46<3:45:16,  8.83s/it] 70%|███████   | 3620/5150 [8:47:55<3:43:41,  8.77s/it]                                                       {'loss': '5.864e-05', 'grad_norm': '0.01531', 'learning_rate': '4.918e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '146.7', 'tokens/total': 59318272, 'tokens/trainable': 18779216, 'epoch': '3.512'}
+ 70%|███████   | 3620/5150 [8:47:55<3:43:41,  8.77s/it] 70%|███████   | 3621/5150 [8:48:03<3:42:33,  8.73s/it] 70%|███████   | 3622/5150 [8:48:12<3:41:40,  8.70s/it] 70%|███████   | 3623/5150 [8:48:20<3:41:03,  8.69s/it] 70%|███████   | 3624/5150 [8:48:29<3:42:50,  8.76s/it] 70%|███████   | 3625/5150 [8:48:38<3:41:43,  8.72s/it] 70%|███████   | 3626/5150 [8:48:47<3:40:54,  8.70s/it] 70%|███████   | 3627/5150 [8:48:55<3:40:16,  8.68s/it] 70%|███████   | 3628/5150 [8:49:04<3:42:06,  8.76s/it] 70%|███████   | 3629/5150 [8:49:13<3:41:01,  8.72s/it] 70%|███████   | 3630/5150 [8:49:22<3:40:12,  8.69s/it]                                                       {'loss': '2.552e-05', 'grad_norm': '0.0001022', 'learning_rate': '4.86e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '164', 'tokens/total': 59482112, 'tokens/trainable': 18831232, 'epoch': '3.522'}
+ 70%|███████   | 3630/5150 [8:49:22<3:40:12,  8.69s/it] 71%|█████���█   | 3631/5150 [8:49:30<3:39:37,  8.68s/it] 71%|███████   | 3632/5150 [8:49:39<3:39:09,  8.66s/it] 71%|███████   | 3633/5150 [8:49:48<3:41:02,  8.74s/it] 71%|███████   | 3634/5150 [8:49:56<3:40:02,  8.71s/it] 71%|███████   | 3635/5150 [8:50:05<3:39:16,  8.68s/it] 71%|███████   | 3636/5150 [8:50:14<3:38:42,  8.67s/it] 71%|███████   | 3637/5150 [8:50:23<3:40:34,  8.75s/it] 71%|███████   | 3638/5150 [8:50:31<3:39:34,  8.71s/it] 71%|███████   | 3639/5150 [8:50:40<3:38:50,  8.69s/it] 71%|███████   | 3640/5150 [8:50:48<3:38:11,  8.67s/it]                                                       {'loss': '2.525e-05', 'grad_norm': '4.57e-05', 'learning_rate': '4.802e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '145.2', 'tokens/total': 59645952, 'tokens/trainable': 18882508, 'epoch': '3.532'}
+ 71%|███████   | 3640/5150 [8:50:48<3:38:11,  8.67s/it] 71%|███████   | 3641/5150 [8:50:57<3:37:43,  8.66s/it] 71%|███████   | 3642/5150 [8:51:06<3:39:35,  8.74s/it] 71%|███████   | 3643/5150 [8:51:15<3:38:34,  8.70s/it] 71%|███████   | 3644/5150 [8:51:23<3:37:49,  8.68s/it] 71%|███████   | 3645/5150 [8:51:32<3:37:18,  8.66s/it] 71%|███████   | 3646/5150 [8:51:41<3:39:08,  8.74s/it] 71%|███████   | 3647/5150 [8:51:49<3:38:07,  8.71s/it] 71%|███████   | 3648/5150 [8:51:58<3:37:19,  8.68s/it] 71%|███████   | 3649/5150 [8:52:07<3:36:47,  8.67s/it] 71%|███████   | 3650/5150 [8:52:15<3:36:22,  8.65s/it]                                                       {'loss': '2.149e-05', 'grad_norm': '0.000212', 'learning_rate': '4.744e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '165.8', 'tokens/total': 59809792, 'tokens/trainable': 18934530, 'epoch': '3.541'}
+ 71%|███████   | 3650/5150 [8:52:15<3:36:22,  8.65s/it] 71%|███████   | 3651/5150 [8:52:24<3:38:15,  8.74s/it] 71%|███████   | 3652/5150 [8:52:33<3:37:17,  8.70s/it] 71%|███████   | 3653/5150 [8:52:41<3:36:34,  8.68s/it] 71%|███████   | 3654/5150 [8:52:50<3:36:02,  8.66s/it] 71%|███████   | 3655/5150 [8:52:59<3:37:48,  8.74s/it] 71%|███████   | 3656/5150 [8:53:08<3:36:45,  8.71s/it] 71%|███████   | 3657/5150 [8:53:16<3:36:02,  8.68s/it] 71%|███████   | 3658/5150 [8:53:25<3:35:31,  8.67s/it] 71%|███████   | 3659/5150 [8:53:34<3:35:11,  8.66s/it] 71%|███████   | 3660/5150 [8:53:42<3:37:06,  8.74s/it]                                                       {'loss': '3.182e-05', 'grad_norm': '6.857e-05', 'learning_rate': '4.686e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '142.4', 'tokens/total': 59973632, 'tokens/trainable': 18986964, 'epoch': '3.551'}
+ 71%|███████   | 3660/5150 [8:53:42<3:37:06,  8.74s/it] 71%|███████   | 3661/5150 [8:53:51<3:36:06,  8.71s/it] 71%|███████   | 3662/5150 [8:54:00<3:35:23,  8.69s/it] 71%|███████   | 3663/5150 [8:54:08<3:34:50,  8.67s/it] 71%|███████   | 3664/5150 [8:54:17<3:36:39,  8.75s/it] 71%|███████   | 3665/5150 [8:54:26<3:35:36,  8.71s/it] 71%|███████   | 3666/5150 [8:54:35<3:34:51,  8.69s/it] 71%|███████   | 3667/5150 [8:54:43<3:34:17,  8.67s/it] 71%|███████   | 3668/5150 [8:54:52<3:33:49,  8.66s/it] 71%|███████   | 3669/5150 [8:55:01<3:35:43,  8.74s/it] 71%|███████▏  | 3670/5150 [8:55:09<3:34:45,  8.71s/it]                                                       {'loss': '4.127e-05', 'grad_norm': '0.0001274', 'learning_rate': '4.629e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '159', 'tokens/total': 60137472, 'tokens/trainable': 19038572, 'epoch': '3.561'}
+ 71%|███████▏  | 3670/5150 [8:55:09<3:34:45,  8.71s/it] 71%|███████▏  | 3671/5150 [8:55:18<3:34:03,  8.68s/it] 71%|███████▏  | 3672/5150 [8:55:27<3:33:32,  8.67s/it] 71%|███████▏  | 3673/5150 [8:55:35<3:33:05,  8.66s/it] 71%|███████▏  | 3674/5150 [8:55:44<3:34:56,  8.74s/it] 71%|███████▏  | 3675/5150 [8:55:53<3:34:03,  8.71s/it] 71%|███████▏  | 3676/5150 [8:56:01<3:33:21,  8.68s/it] 71%|███████▏  | 3677/5150 [8:56:10<3:32:50,  8.67s/it] 71%|███████▏  | 3678/5150 [8:56:19<3:34:34,  8.75s/it] 71%|███████▏  | 3679/5150 [8:56:28<3:33:33,  8.71s/it] 71%|███████▏  | 3680/5150 [8:56:36<3:32:49,  8.69s/it]                                                       {'loss': '2.393e-05', 'grad_norm': '0.0001188', 'learning_rate': '4.572e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '147.9', 'tokens/total': 60301312, 'tokens/trainable': 19090656, 'epoch': '3.57'}
+ 71%|███████▏  | 3680/5150 [8:56:36<3:32:49,  8.69s/it] 71%|███████▏  | 3681/5150 [8:56:45<3:32:19,  8.67s/it] 71%|███████▏  | 3682/5150 [8:56:54<3:34:02,  8.75s/it] 72%|███████▏  | 3683/5150 [8:57:02<3:33:03,  8.71s/it] 72%|███████▏  | 3684/5150 [8:57:11<3:32:20,  8.69s/it] 72%|███████▏  | 3685/5150 [8:57:20<3:31:46,  8.67s/it] 72%|███████▏  | 3686/5150 [8:57:28<3:31:21,  8.66s/it] 72%|███████▏  | 3687/5150 [8:57:37<3:33:09,  8.74s/it] 72%|███████▏  | 3688/5150 [8:57:46<3:32:12,  8.71s/it] 72%|███████▏  | 3689/5150 [8:57:55<3:31:30,  8.69s/it] 72%|███████▏  | 3690/5150 [8:58:03<3:30:57,  8.67s/it]                                                       {'loss': '8.665e-06', 'grad_norm': '0.0005661', 'learning_rate': '4.515e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '149.8', 'tokens/total': 60465152, 'tokens/trainable': 19142522, 'epoch': '3.58'}
+ 72%|███████▏  | 3690/5150 [8:58:03<3:30:57,  8.67s/it] 72%|███████▏  | 3691/5150 [8:58:12<3:32:40,  8.75s/it] 72%|███████▏  | 3692/5150 [8:58:21<3:31:41,  8.71s/it] 72%|███████▏  | 3693/5150 [8:58:29<3:30:56,  8.69s/it] 72%|███████▏  | 3694/5150 [8:58:38<3:30:19,  8.67s/it] 72%|███████▏  | 3695/5150 [8:58:47<3:29:56,  8.66s/it] 72%|███████▏  | 3696/5150 [8:58:56<3:31:51,  8.74s/it] 72%|███████▏  | 3697/5150 [8:59:04<3:30:50,  8.71s/it] 72%|███████▏  | 3698/5150 [8:59:13<3:30:07,  8.68s/it] 72%|███████▏  | 3699/5150 [8:59:21<3:29:32,  8.66s/it] 72%|███████▏  | 3700/5150 [8:59:30<3:29:06,  8.65s/it]                                                       {'loss': '9.784e-05', 'grad_norm': '0.0001738', 'learning_rate': '4.459e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '155.8', 'tokens/total': 60628992, 'tokens/trainable': 19194364, 'epoch': '3.59'}
+ 72%|███████▏  | 3700/5150 [8:59:30<3:29:06,  8.65s/it] 72%|███████▏  | 3701/5150 [8:59:39<3:30:55,  8.73s/it] 72%|███████▏  | 3702/5150 [8:59:48<3:30:00,  8.70s/it] 72%|███████▏  | 3703/5150 [8:59:56<3:29:18,  8.68s/it] 72%|███████▏  | 3704/5150 [9:00:05<3:28:48,  8.66s/it] 72%|███████▏  | 3705/5150 [9:00:14<3:30:32,  8.74s/it] 72%|███████▏  | 3706/5150 [9:00:22<3:29:32,  8.71s/it] 72%|███████▏  | 3707/5150 [9:00:31<3:28:48,  8.68s/it] 72%|███████▏  | 3708/5150 [9:00:40<3:28:14,  8.66s/it] 72%|███████▏  | 3709/5150 [9:00:48<3:27:48,  8.65s/it] 72%|███████▏  | 3710/5150 [9:00:57<3:29:35,  8.73s/it]                                                       {'loss': '1.704e-05', 'grad_norm': '9.651e-05', 'learning_rate': '4.402e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '141.3', 'tokens/total': 60792832, 'tokens/trainable': 19246588, 'epoch': '3.599'}
+ 72%|███████▏  | 3710/5150 [9:00:57<3:29:35,  8.73s/it] 72%|███████▏  | 3711/5150 [9:01:06<3:28:46,  8.70s/it] 72%|███████▏  | 3712/5150 [9:01:14<3:28:04,  8.68s/it] 72%|███████▏  | 3713/5150 [9:01:23<3:27:31,  8.66s/it] 72%|███████▏  | 3714/5150 [9:01:32<3:29:14,  8.74s/it] 72%|███████▏  | 3715/5150 [9:01:41<3:28:14,  8.71s/it] 72%|███████▏  | 3716/5150 [9:01:49<3:27:29,  8.68s/it] 72%|███████▏  | 3717/5150 [9:01:58<3:26:56,  8.66s/it] 72%|███████▏  | 3718/5150 [9:02:07<3:26:28,  8.65s/it] 72%|███████▏  | 3719/5150 [9:02:15<3:28:08,  8.73s/it] 72%|███████▏  | 3720/5150 [9:02:24<3:27:15,  8.70s/it]                                                       {'loss': '3.243e-05', 'grad_norm': '0.00041', 'learning_rate': '4.346e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '152.6', 'tokens/total': 60956672, 'tokens/trainable': 19298172, 'epoch': '3.609'}
+ 72%|███████▏  | 3720/5150 [9:02:24<3:27:15,  8.70s/it] 72%|███████▏  | 3721/5150 [9:02:33<3:26:35,  8.67s/it] 72%|███████▏  | 3722/5150 [9:02:41<3:26:07,  8.66s/it] 72%|███████▏  | 3723/5150 [9:02:50<3:27:51,  8.74s/it] 72%|███████▏  | 3724/5150 [9:02:59<3:26:56,  8.71s/it] 72%|███████▏  | 3725/5150 [9:03:08<3:26:14,  8.68s/it] 72%|███████▏  | 3726/5150 [9:03:16<3:25:40,  8.67s/it] 72%|███████▏  | 3727/5150 [9:03:25<3:25:12,  8.65s/it] 72%|███████▏  | 3728/5150 [9:03:34<3:27:00,  8.73s/it] 72%|███████▏  | 3729/5150 [9:03:42<3:26:04,  8.70s/it] 72%|███████▏  | 3730/5150 [9:03:51<3:25:21,  8.68s/it]                                                       {'loss': '2.54e-05', 'grad_norm': '5.351e-05', 'learning_rate': '4.291e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '157.8', 'tokens/total': 61120512, 'tokens/trainable': 19349504, 'epoch': '3.619'}
+ 72%|███████▏  | 3730/5150 [9:03:51<3:25:21,  8.68s/it] 72%|███████▏  | 3731/5150 [9:04:00<3:24:54,  8.66s/it] 72%|███████▏  | 3732/5150 [9:04:08<3:26:33,  8.74s/it] 72%|███████▏  | 3733/5150 [9:04:17<3:25:36,  8.71s/it] 73%|███████▎  | 3734/5150 [9:04:26<3:24:54,  8.68s/it] 73%|███████▎  | 3735/5150 [9:04:34<3:24:24,  8.67s/it] 73%|███████▎  | 3736/5150 [9:04:43<3:24:01,  8.66s/it] 73%|███████▎  | 3737/5150 [9:04:52<3:25:44,  8.74s/it] 73%|███████▎  | 3738/5150 [9:05:01<3:24:49,  8.70s/it] 73%|███████▎  | 3739/5150 [9:05:09<3:24:09,  8.68s/it] 73%|███████▎  | 3740/5150 [9:05:18<3:23:36,  8.66s/it]                                                       {'loss': '1.504e-05', 'grad_norm': '0.0003463', 'learning_rate': '4.235e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '144', 'tokens/total': 61284352, 'tokens/trainable': 19400992, 'epoch': '3.629'}
+ 73%|███████▎  | 3740/5150 [9:05:18<3:23:36,  8.66s/it] 73%|███████▎  | 3741/5150 [9:05:26<3:23:13,  8.65s/it] 73%|███████▎  | 3742/5150 [9:05:35<3:24:51,  8.73s/it] 73%|███████▎  | 3743/5150 [9:05:44<3:24:00,  8.70s/it] 73%|███████▎  | 3744/5150 [9:05:53<3:23:21,  8.68s/it] 73%|███████▎  | 3745/5150 [9:06:01<3:22:52,  8.66s/it] 73%|███████▎  | 3746/5150 [9:06:10<3:24:32,  8.74s/it] 73%|███████▎  | 3747/5150 [9:06:19<3:23:35,  8.71s/it] 73%|███████▎  | 3748/5150 [9:06:27<3:22:53,  8.68s/it] 73%|███████▎  | 3749/5150 [9:06:36<3:22:22,  8.67s/it] 73%|███████▎  | 3750/5150 [9:06:45<3:24:05,  8.75s/it]                                                       {'loss': '5.994e-05', 'grad_norm': '0.01729', 'learning_rate': '4.18e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '155.5', 'tokens/total': 61448192, 'tokens/trainable': 19452372, 'epoch': '3.638'}
+ 73%|███████▎  | 3750/5150 [9:06:45<3:24:05,  8.75s/it] 73%|███████▎  | 3751/5150 [9:06:54<3:23:09,  8.71s/it] 73%|███████▎  | 3752/5150 [9:07:02<3:22:31,  8.69s/it] 73%|███████▎  | 3753/5150 [9:07:11<3:21:56,  8.67s/it] 73%|███████▎  | 3754/5150 [9:07:19<3:21:26,  8.66s/it] 73%|███████▎  | 3755/5150 [9:07:28<3:23:03,  8.73s/it] 73%|███████▎  | 3756/5150 [9:07:37<3:22:13,  8.70s/it] 73%|███████▎  | 3757/5150 [9:07:46<3:21:31,  8.68s/it] 73%|███████▎  | 3758/5150 [9:07:54<3:21:00,  8.66s/it] 73%|███████▎  | 3759/5150 [9:08:03<3:22:33,  8.74s/it] 73%|███████▎  | 3760/5150 [9:08:12<3:21:38,  8.70s/it]                                                       {'loss': '5.756e-05', 'grad_norm': '0.001192', 'learning_rate': '4.125e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '148.5', 'tokens/total': 61612032, 'tokens/trainable': 19504256, 'epoch': '3.648'}
+ 73%|███████▎  | 3760/5150 [9:08:12<3:21:38,  8.70s/it] 73%|███████▎  | 3761/5150 [9:08:20<3:20:59,  8.68s/it] 73%|███████▎  | 3762/5150 [9:08:29<3:20:27,  8.67s/it] 73%|███████▎  | 3763/5150 [9:08:38<3:20:00,  8.65s/it] 73%|███████▎  | 3764/5150 [9:08:47<3:21:40,  8.73s/it] 73%|███████▎  | 3765/5150 [9:08:55<3:20:49,  8.70s/it] 73%|███████▎  | 3766/5150 [9:09:04<3:20:11,  8.68s/it] 73%|███████▎  | 3767/5150 [9:09:12<3:19:43,  8.66s/it] 73%|███████▎  | 3768/5150 [9:09:21<3:21:18,  8.74s/it] 73%|███████▎  | 3769/5150 [9:09:30<3:20:24,  8.71s/it] 73%|███████▎  | 3770/5150 [9:09:39<3:19:41,  8.68s/it]                                                       {'loss': '0.0001133', 'grad_norm': '4.243e-05', 'learning_rate': '4.07e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '142.6', 'tokens/total': 61775872, 'tokens/trainable': 19555664, 'epoch': '3.658'}
+ 73%|███████▎  | 3770/5150 [9:09:39<3:19:41,  8.68s/it] 73%|███████▎  | 3771/5150 [9:09:47<3:19:09,  8.67s/it] 73%|███████▎  | 3772/5150 [9:09:56<3:18:45,  8.65s/it] 73%|███████▎  | 3773/5150 [9:10:05<3:20:29,  8.74s/it] 73%|███████▎  | 3774/5150 [9:10:13<3:19:33,  8.70s/it] 73%|███████▎  | 3775/5150 [9:10:22<3:18:53,  8.68s/it] 73%|███████▎  | 3776/5150 [9:10:31<3:18:22,  8.66s/it] 73%|███████▎  | 3777/5150 [9:10:40<3:19:57,  8.74s/it] 73%|███████▎  | 3778/5150 [9:10:48<3:19:02,  8.70s/it] 73%|███████▎  | 3779/5150 [9:10:57<3:18:21,  8.68s/it] 73%|███████▎  | 3780/5150 [9:11:06<3:17:51,  8.67s/it]                                                       {'loss': '5.524e-06', 'grad_norm': '0.0004574', 'learning_rate': '4.016e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '146.7', 'tokens/total': 61939712, 'tokens/trainable': 19607780, 'epoch': '3.667'}
+ 73%|███████▎  | 3780/5150 [9:11:06<3:17:51,  8.67s/it] 73%|███████▎  | 3781/5150 [9:11:14<3:17:28,  8.66s/it] 73%|███████▎  | 3782/5150 [9:11:23<3:19:08,  8.73s/it] 73%|███████▎  | 3783/5150 [9:11:32<3:18:15,  8.70s/it] 73%|███████▎  | 3784/5150 [9:11:40<3:17:35,  8.68s/it] 73%|███████▎  | 3785/5150 [9:11:49<3:17:06,  8.66s/it] 74%|███████▎  | 3786/5150 [9:11:58<3:18:45,  8.74s/it] 74%|███████▎  | 3787/5150 [9:12:06<3:17:47,  8.71s/it] 74%|███████▎  | 3788/5150 [9:12:15<3:17:04,  8.68s/it] 74%|███████▎  | 3789/5150 [9:12:24<3:16:35,  8.67s/it] 74%|███████▎  | 3790/5150 [9:12:32<3:16:09,  8.65s/it]                                                       {'loss': '5.736e-06', 'grad_norm': '8.996e-05', 'learning_rate': '3.962e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '146.5', 'tokens/total': 62103552, 'tokens/trainable': 19658868, 'epoch': '3.677'}
+ 74%|███████▎  | 3790/5150 [9:12:32<3:16:09,  8.65s/it] 74%|███████▎  | 3791/5150 [9:12:41<3:17:55,  8.74s/it] 74%|███████▎  | 3792/5150 [9:12:50<3:17:01,  8.70s/it] 74%|███████▎  | 3793/5150 [9:12:59<3:16:22,  8.68s/it] 74%|███████▎  | 3794/5150 [9:13:07<3:15:51,  8.67s/it] 74%|███████▎  | 3795/5150 [9:13:16<3:17:25,  8.74s/it] 74%|███████▎  | 3796/5150 [9:13:25<3:16:28,  8.71s/it] 74%|███████▎  | 3797/5150 [9:13:33<3:15:48,  8.68s/it] 74%|███████▎  | 3798/5150 [9:13:42<3:15:16,  8.67s/it] 74%|███████▍  | 3799/5150 [9:13:51<3:14:53,  8.66s/it] 74%|███████▍  | 3800/5150 [9:14:00<3:16:28,  8.73s/it]                                                       {'loss': '4.369e-06', 'grad_norm': '0.001026', 'learning_rate': '3.908e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '135.5', 'tokens/total': 62267392, 'tokens/trainable': 19710308, 'epoch': '3.687'}
+ 74%|███████▍  | 3800/5150 [9:14:00<3:16:28,  8.73s/it] 74%|███████▍  | 3801/5150 [9:14:08<3:15:37,  8.70s/it] 74%|███████▍  | 3802/5150 [9:14:17<3:14:59,  8.68s/it] 74%|███████▍  | 3803/5150 [9:14:25<3:14:28,  8.66s/it] 74%|███████▍  | 3804/5150 [9:14:34<3:14:05,  8.65s/it] 74%|███████▍  | 3805/5150 [9:14:43<3:15:46,  8.73s/it] 74%|███████▍  | 3806/5150 [9:14:52<3:14:53,  8.70s/it] 74%|███████▍  | 3807/5150 [9:15:00<3:14:13,  8.68s/it] 74%|███████▍  | 3808/5150 [9:15:09<3:13:41,  8.66s/it] 74%|███████▍  | 3809/5150 [9:15:18<3:15:15,  8.74s/it] 74%|███████▍  | 3810/5150 [9:15:26<3:14:19,  8.70s/it]                                                       {'loss': '6.643e-06', 'grad_norm': '5.111e-05', 'learning_rate': '3.854e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '153', 'tokens/total': 62431232, 'tokens/trainable': 19761554, 'epoch': '3.696'}
+ 74%|███████▍  | 3810/5150 [9:15:26<3:14:19,  8.70s/it] 74%|███████▍  | 3811/5150 [9:15:35<3:13:40,  8.68s/it] 74%|███████▍  | 3812/5150 [9:15:44<3:13:09,  8.66s/it] 74%|███████▍  | 3813/5150 [9:15:52<3:12:49,  8.65s/it] 74%|███████▍  | 3814/5150 [9:16:01<3:14:31,  8.74s/it] 74%|███████▍  | 3815/5150 [9:16:10<3:13:37,  8.70s/it] 74%|███████▍  | 3816/5150 [9:16:18<3:12:58,  8.68s/it] 74%|███████▍  | 3817/5150 [9:16:27<3:12:27,  8.66s/it] 74%|███████▍  | 3818/5150 [9:16:36<3:13:59,  8.74s/it] 74%|███████▍  | 3819/5150 [9:16:45<3:13:06,  8.70s/it] 74%|███████▍  | 3820/5150 [9:16:53<3:12:24,  8.68s/it]                                                       {'loss': '3.147e-05', 'grad_norm': '0.0008997', 'learning_rate': '3.801e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '141', 'tokens/total': 62595072, 'tokens/trainable': 19813164, 'epoch': '3.706'}
+ 74%|███████▍  | 3820/5150 [9:16:53<3:12:24,  8.68s/it] 74%|███████▍  | 3821/5150 [9:17:02<3:11:56,  8.67s/it] 74%|███████▍  | 3822/5150 [9:17:10<3:11:34,  8.66s/it] 74%|███████▍  | 3823/5150 [9:17:19<3:13:09,  8.73s/it] 74%|███████▍  | 3824/5150 [9:17:28<3:12:17,  8.70s/it] 74%|███████▍  | 3825/5150 [9:17:37<3:11:38,  8.68s/it] 74%|███████▍  | 3826/5150 [9:17:45<3:11:08,  8.66s/it] 74%|███████▍  | 3827/5150 [9:17:54<3:12:45,  8.74s/it] 74%|███████▍  | 3828/5150 [9:18:03<3:11:52,  8.71s/it] 74%|███████▍  | 3829/5150 [9:18:11<3:11:09,  8.68s/it] 74%|███████▍  | 3830/5150 [9:18:20<3:10:37,  8.67s/it]                                                       {'loss': '1.474e-05', 'grad_norm': '5.503e-05', 'learning_rate': '3.748e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '161.1', 'tokens/total': 62758912, 'tokens/trainable': 19865676, 'epoch': '3.716'}
+ 74%|███████▍  | 3830/5150 [9:18:20<3:10:37,  8.67s/it] 74%|███████▍  | 3831/5150 [9:18:29<3:10:13,  8.65s/it] 74%|███████▍  | 3832/5150 [9:18:38<3:11:49,  8.73s/it] 74%|███████▍  | 3833/5150 [9:18:46<3:11:00,  8.70s/it] 74%|███████▍  | 3834/5150 [9:18:55<3:10:20,  8.68s/it] 74%|███████▍  | 3835/5150 [9:19:04<3:09:52,  8.66s/it] 74%|███████▍  | 3836/5150 [9:19:12<3:09:30,  8.65s/it] 75%|███████▍  | 3837/5150 [9:19:21<3:11:03,  8.73s/it] 75%|███████▍  | 3838/5150 [9:19:30<3:10:14,  8.70s/it] 75%|███████▍  | 3839/5150 [9:19:38<3:09:36,  8.68s/it] 75%|███████▍  | 3840/5150 [9:19:47<3:09:08,  8.66s/it]                                                       {'loss': '6.717e-05', 'grad_norm': '9.371e-06', 'learning_rate': '3.695e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '158.1', 'tokens/total': 62922752, 'tokens/trainable': 19918344, 'epoch': '3.726'}
+ 75%|███████▍  | 3840/5150 [9:19:47<3:09:08,  8.66s/it] 75%|███████▍  | 3841/5150 [9:19:56<3:10:43,  8.74s/it] 75%|███████▍  | 3842/5150 [9:20:04<3:09:49,  8.71s/it] 75%|███████▍  | 3843/5150 [9:20:13<3:09:11,  8.69s/it] 75%|███████▍  | 3844/5150 [9:20:22<3:08:42,  8.67s/it] 75%|███████▍  | 3845/5150 [9:20:30<3:08:17,  8.66s/it] 75%|███████▍  | 3846/5150 [9:20:39<3:09:50,  8.73s/it] 75%|███████▍  | 3847/5150 [9:20:48<3:08:59,  8.70s/it] 75%|███████▍  | 3848/5150 [9:20:57<3:08:21,  8.68s/it] 75%|███████▍  | 3849/5150 [9:21:05<3:07:53,  8.67s/it] 75%|███████▍  | 3850/5150 [9:21:14<3:09:20,  8.74s/it]                                                       {'loss': '5.813e-05', 'grad_norm': '0.02856', 'learning_rate': '3.642e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '144.3', 'tokens/total': 63086592, 'tokens/trainable': 19970356, 'epoch': '3.735'}
+ 75%|███████▍  | 3850/5150 [9:21:14<3:09:20,  8.74s/it] 75%|███████▍  | 3851/5150 [9:21:23<3:08:31,  8.71s/it] 75%|███████▍  | 3852/5150 [9:21:31<3:07:52,  8.68s/it] 75%|███████▍  | 3853/5150 [9:21:40<3:07:21,  8.67s/it] 75%|███████▍  | 3854/5150 [9:21:49<3:06:58,  8.66s/it] 75%|███████▍  | 3855/5150 [9:21:58<3:08:28,  8.73s/it] 75%|███████▍  | 3856/5150 [9:22:06<3:07:40,  8.70s/it] 75%|███████▍  | 3857/5150 [9:22:15<3:07:03,  8.68s/it] 75%|███████▍  | 3858/5150 [9:22:23<3:06:35,  8.67s/it] 75%|███████▍  | 3859/5150 [9:22:32<3:08:06,  8.74s/it] 75%|███████▍  | 3860/5150 [9:22:41<3:07:17,  8.71s/it]                                                       {'loss': '3.727e-05', 'grad_norm': '0.0006574', 'learning_rate': '3.59e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '139.7', 'tokens/total': 63250432, 'tokens/trainable': 20022268, 'epoch': '3.745'}
+ 75%|███████▍  | 3860/5150 [9:22:41<3:07:17,  8.71s/it] 75%|███████▍  | 3861/5150 [9:22:50<3:06:38,  8.69s/it] 75%|███████▍  | 3862/5150 [9:22:58<3:06:09,  8.67s/it] 75%|███████▌  | 3863/5150 [9:23:07<3:05:45,  8.66s/it] 75%|███████▌  | 3864/5150 [9:23:16<3:07:19,  8.74s/it] 75%|███████▌  | 3865/5150 [9:23:24<3:06:26,  8.71s/it] 75%|███████▌  | 3866/5150 [9:23:33<3:05:45,  8.68s/it] 75%|███████▌  | 3867/5150 [9:23:42<3:05:14,  8.66s/it] 75%|███████▌  | 3868/5150 [9:23:51<3:06:43,  8.74s/it] 75%|███████▌  | 3869/5150 [9:23:59<3:05:51,  8.71s/it] 75%|███████▌  | 3870/5150 [9:24:08<3:05:14,  8.68s/it]                                                       {'loss': '1.593e-05', 'grad_norm': '0.0001474', 'learning_rate': '3.538e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '150.1', 'tokens/total': 63414272, 'tokens/trainable': 20074492, 'epoch': '3.755'}
+ 75%|███████▌  | 3870/5150 [9:24:08<3:05:14,  8.68s/it] 75%|███████▌  | 3871/5150 [9:24:16<3:04:44,  8.67s/it] 75%|███████▌  | 3872/5150 [9:24:25<3:04:21,  8.66s/it] 75%|███████▌  | 3873/5150 [9:24:34<3:06:04,  8.74s/it] 75%|███████▌  | 3874/5150 [9:24:43<3:05:12,  8.71s/it] 75%|███████▌  | 3875/5150 [9:24:51<3:04:30,  8.68s/it] 75%|███████▌  | 3876/5150 [9:25:00<3:04:00,  8.67s/it] 75%|███████▌  | 3877/5150 [9:25:09<3:05:26,  8.74s/it] 75%|███████▌  | 3878/5150 [9:25:17<3:04:34,  8.71s/it] 75%|███████▌  | 3879/5150 [9:25:26<3:03:55,  8.68s/it] 75%|███████▌  | 3880/5150 [9:25:35<3:03:28,  8.67s/it]                                                       {'loss': '6.524e-05', 'grad_norm': '5.387e-05', 'learning_rate': '3.487e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '144.9', 'tokens/total': 63578112, 'tokens/trainable': 20126330, 'epoch': '3.764'}
+ 75%|███████▌  | 3880/5150 [9:25:35<3:03:28,  8.67s/it] 75%|███████▌  | 3881/5150 [9:25:43<3:03:05,  8.66s/it] 75%|███████▌  | 3882/5150 [9:25:52<3:04:39,  8.74s/it] 75%|███████▌  | 3883/5150 [9:26:01<3:03:47,  8.70s/it] 75%|███████▌  | 3884/5150 [9:26:10<3:03:09,  8.68s/it] 75%|███████▌  | 3885/5150 [9:26:18<3:02:42,  8.67s/it] 75%|███████▌  | 3886/5150 [9:26:27<3:04:11,  8.74s/it] 75%|███████▌  | 3887/5150 [9:26:36<3:03:17,  8.71s/it] 75%|███████▌  | 3888/5150 [9:26:44<3:02:38,  8.68s/it] 76%|███████▌  | 3889/5150 [9:26:53<3:02:08,  8.67s/it] 76%|███████▌  | 3890/5150 [9:27:02<3:01:44,  8.65s/it]                                                       {'loss': '2.136e-05', 'grad_norm': '0.0001469', 'learning_rate': '3.436e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '150.1', 'tokens/total': 63741952, 'tokens/trainable': 20177838, 'epoch': '3.774'}
+ 76%|███████▌  | 3890/5150 [9:27:02<3:01:44,  8.65s/it] 76%|███████▌  | 3891/5150 [9:27:11<3:03:17,  8.74s/it] 76%|███████▌  | 3892/5150 [9:27:19<3:02:30,  8.70s/it] 76%|███████▌  | 3893/5150 [9:27:28<3:01:51,  8.68s/it] 76%|███████▌  | 3894/5150 [9:27:36<3:01:21,  8.66s/it] 76%|███████▌  | 3895/5150 [9:27:45<3:02:51,  8.74s/it] 76%|███████▌  | 3896/5150 [9:27:54<3:01:59,  8.71s/it] 76%|███████▌  | 3897/5150 [9:28:03<3:01:21,  8.68s/it] 76%|███████▌  | 3898/5150 [9:28:11<3:00:52,  8.67s/it] 76%|███████▌  | 3899/5150 [9:28:20<3:00:28,  8.66s/it] 76%|███████▌  | 3900/5150 [9:28:29<3:01:59,  8.74s/it]                                                       {'loss': '4.557e-05', 'grad_norm': '1.882e-05', 'learning_rate': '3.385e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '146.7', 'tokens/total': 63905792, 'tokens/trainable': 20229300, 'epoch': '3.784'}
+ 76%|███████▌  | 3900/5150 [9:28:29<3:01:59,  8.74s/it] 76%|███████▌  | 3901/5150 [9:28:37<3:01:11,  8.70s/it] 76%|███████▌  | 3902/5150 [9:28:46<3:00:32,  8.68s/it] 76%|███████▌  | 3903/5150 [9:28:55<3:00:03,  8.66s/it] 76%|███████▌  | 3904/5150 [9:29:03<2:59:39,  8.65s/it] 76%|███████▌  | 3905/5150 [9:29:12<3:01:11,  8.73s/it] 76%|███████▌  | 3906/5150 [9:29:21<3:00:24,  8.70s/it] 76%|███████▌  | 3907/5150 [9:29:29<2:59:48,  8.68s/it] 76%|███████▌  | 3908/5150 [9:29:38<2:59:21,  8.66s/it] 76%|███████▌  | 3909/5150 [9:29:47<3:00:49,  8.74s/it] 76%|███████▌  | 3910/5150 [9:29:56<2:59:58,  8.71s/it]                                                       {'loss': '3.994e-05', 'grad_norm': '6.434e-05', 'learning_rate': '3.334e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '148.5', 'tokens/total': 64069632, 'tokens/trainable': 20280752, 'epoch': '3.793'}
+ 76%|███████▌  | 3910/5150 [9:29:56<2:59:58,  8.71s/it] 76%|███████▌  | 3911/5150 [9:30:04<2:59:20,  8.69s/it] 76%|███████▌  | 3912/5150 [9:30:13<2:58:50,  8.67s/it] 76%|███████▌  | 3913/5150 [9:30:22<2:58:27,  8.66s/it] 76%|███████▌  | 3914/5150 [9:30:30<2:59:58,  8.74s/it] 76%|███████▌  | 3915/5150 [9:30:39<2:59:08,  8.70s/it] 76%|███████▌  | 3916/5150 [9:30:48<2:58:33,  8.68s/it] 76%|███████▌  | 3917/5150 [9:30:56<2:58:05,  8.67s/it] 76%|███████▌  | 3918/5150 [9:31:05<2:59:32,  8.74s/it] 76%|███████▌  | 3919/5150 [9:31:14<2:58:41,  8.71s/it] 76%|███████▌  | 3920/5150 [9:31:23<2:58:03,  8.69s/it]                                                       {'loss': '4.551e-05', 'grad_norm': '2.355e-05', 'learning_rate': '3.284e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '147.6', 'tokens/total': 64233472, 'tokens/trainable': 20332456, 'epoch': '3.803'}
+ 76%|███████▌  | 3920/5150 [9:31:23<2:58:03,  8.69s/it] 76%|███████▌  | 3921/5150 [9:31:31<2:57:32,  8.67s/it] 76%|███████▌  | 3922/5150 [9:31:40<2:57:11,  8.66s/it] 76%|███████▌  | 3923/5150 [9:31:49<2:58:38,  8.74s/it] 76%|███████▌  | 3924/5150 [9:31:57<2:58:00,  8.71s/it] 76%|███████▌  | 3925/5150 [9:32:06<2:57:33,  8.70s/it] 76%|███████▌  | 3926/5150 [9:32:15<2:57:05,  8.68s/it] 76%|███████▋  | 3927/5150 [9:32:24<2:58:29,  8.76s/it] 76%|███████▋  | 3928/5150 [9:32:32<2:57:38,  8.72s/it] 76%|███████▋  | 3929/5150 [9:32:41<2:56:54,  8.69s/it] 76%|███████▋  | 3930/5150 [9:32:49<2:56:22,  8.67s/it]                                                       {'loss': '2.968e-05', 'grad_norm': '0.01303', 'learning_rate': '3.233e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '135.8', 'tokens/total': 64397312, 'tokens/trainable': 20384356, 'epoch': '3.813'}
+ 76%|███████▋  | 3930/5150 [9:32:49<2:56:22,  8.67s/it] 76%|███████▋  | 3931/5150 [9:32:58<2:55:59,  8.66s/it] 76%|███████▋  | 3932/5150 [9:33:07<2:57:22,  8.74s/it] 76%|███████▋  | 3933/5150 [9:33:16<2:56:32,  8.70s/it] 76%|███████▋  | 3934/5150 [9:33:24<2:55:55,  8.68s/it] 76%|███████▋  | 3935/5150 [9:33:33<2:55:27,  8.66s/it] 76%|███████▋  | 3936/5150 [9:33:42<2:56:50,  8.74s/it] 76%|███████▋  | 3937/5150 [9:33:50<2:56:00,  8.71s/it] 76%|███████▋  | 3938/5150 [9:33:59<2:55:22,  8.68s/it] 76%|███████▋  | 3939/5150 [9:34:08<2:54:52,  8.66s/it] 77%|███████▋  | 3940/5150 [9:34:16<2:54:30,  8.65s/it]                                                       {'loss': '4.077e-05', 'grad_norm': '1.027e-05', 'learning_rate': '3.184e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '144.4', 'tokens/total': 64561152, 'tokens/trainable': 20435812, 'epoch': '3.823'}
+ 77%|███████▋  | 3940/5150 [9:34:16<2:54:30,  8.65s/it] 77%|███████▋  | 3941/5150 [9:34:25<2:55:57,  8.73s/it] 77%|███████▋  | 3942/5150 [9:34:34<2:55:11,  8.70s/it] 77%|███████▋  | 3943/5150 [9:34:42<2:54:36,  8.68s/it] 77%|███████▋  | 3944/5150 [9:34:51<2:54:09,  8.66s/it] 77%|███████▋  | 3945/5150 [9:35:00<2:53:47,  8.65s/it] 77%|███████▋  | 3946/5150 [9:35:09<2:55:13,  8.73s/it] 77%|███████▋  | 3947/5150 [9:35:17<2:54:26,  8.70s/it] 77%|███████▋  | 3948/5150 [9:35:26<2:53:50,  8.68s/it] 77%|███████▋  | 3949/5150 [9:35:35<2:53:26,  8.66s/it] 77%|███████▋  | 3950/5150 [9:35:43<2:54:49,  8.74s/it]                                                       {'loss': '1.377e-05', 'grad_norm': '0.001538', 'learning_rate': '3.134e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '150.6', 'tokens/total': 64724992, 'tokens/trainable': 20487708, 'epoch': '3.832'}
+ 77%|███████▋  | 3950/5150 [9:35:43<2:54:49,  8.74s/it] 77%|███████▋  | 3951/5150 [9:35:52<2:54:01,  8.71s/it] 77%|███████▋  | 3952/5150 [9:36:01<2:53:23,  8.68s/it] 77%|███████▋  | 3953/5150 [9:36:09<2:52:55,  8.67s/it] 77%|███████▋  | 3954/5150 [9:36:18<2:52:34,  8.66s/it] 77%|███████▋  | 3955/5150 [9:36:27<2:53:57,  8.73s/it] 77%|███████▋  | 3956/5150 [9:36:36<2:53:10,  8.70s/it] 77%|███████▋  | 3957/5150 [9:36:44<2:52:36,  8.68s/it] 77%|███████▋  | 3958/5150 [9:36:53<2:52:10,  8.67s/it] 77%|███████▋  | 3959/5150 [9:37:02<2:53:32,  8.74s/it] 77%|███████▋  | 3960/5150 [9:37:10<2:52:44,  8.71s/it]                                                       {'loss': '3.059e-06', 'grad_norm': '0.0003141', 'learning_rate': '3.085e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '155.8', 'tokens/total': 64888832, 'tokens/trainable': 20540092, 'epoch': '3.842'}
+ 77%|███████▋  | 3960/5150 [9:37:10<2:52:44,  8.71s/it] 77%|███████▋  | 3961/5150 [9:37:19<2:52:08,  8.69s/it] 77%|███████▋  | 3962/5150 [9:37:28<2:51:39,  8.67s/it] 77%|███████▋  | 3963/5150 [9:37:36<2:51:15,  8.66s/it] 77%|███████▋  | 3964/5150 [9:37:45<2:52:42,  8.74s/it] 77%|███████▋  | 3965/5150 [9:37:54<2:51:54,  8.70s/it] 77%|███████▋  | 3966/5150 [9:38:02<2:51:17,  8.68s/it] 77%|███████▋  | 3967/5150 [9:38:11<2:50:53,  8.67s/it] 77%|███████▋  | 3968/5150 [9:38:20<2:52:15,  8.74s/it] 77%|███████▋  | 3969/5150 [9:38:29<2:51:28,  8.71s/it] 77%|███████▋  | 3970/5150 [9:38:37<2:50:51,  8.69s/it]                                                       {'loss': '2.392e-05', 'grad_norm': '1.262e-05', 'learning_rate': '3.036e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '151.9', 'tokens/total': 65052672, 'tokens/trainable': 20591928, 'epoch': '3.852'}
+ 77%|███████▋  | 3970/5150 [9:38:37<2:50:51,  8.69s/it] 77%|███████▋  | 3971/5150 [9:38:46<2:50:24,  8.67s/it] 77%|███████▋  | 3972/5150 [9:38:55<2:50:01,  8.66s/it] 77%|███████▋  | 3973/5150 [9:39:03<2:51:30,  8.74s/it] 77%|███████▋  | 3974/5150 [9:39:12<2:50:40,  8.71s/it] 77%|███████▋  | 3975/5150 [9:39:21<2:50:04,  8.69s/it] 77%|███████▋  | 3976/5150 [9:39:29<2:49:37,  8.67s/it] 77%|███████▋  | 3977/5150 [9:39:38<2:51:00,  8.75s/it] 77%|███████▋  | 3978/5150 [9:39:47<2:50:11,  8.71s/it] 77%|███████▋  | 3979/5150 [9:39:56<2:49:32,  8.69s/it] 77%|███████▋  | 3980/5150 [9:40:04<2:49:05,  8.67s/it]                                                       {'loss': '2.907e-06', 'grad_norm': '0.0003149', 'learning_rate': '2.988e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '141.5', 'tokens/total': 65216512, 'tokens/trainable': 20643776, 'epoch': '3.861'}
+ 77%|███████▋  | 3980/5150 [9:40:04<2:49:05,  8.67s/it] 77%|███████▋  | 3981/5150 [9:40:13<2:48:45,  8.66s/it] 77%|███████▋  | 3982/5150 [9:40:22<2:50:16,  8.75s/it] 77%|███████▋  | 3983/5150 [9:40:30<2:49:26,  8.71s/it] 77%|███████▋  | 3984/5150 [9:40:39<2:48:50,  8.69s/it] 77%|███████▋  | 3985/5150 [9:40:48<2:48:19,  8.67s/it] 77%|███████▋  | 3986/5150 [9:40:57<2:49:37,  8.74s/it] 77%|███████▋  | 3987/5150 [9:41:05<2:48:48,  8.71s/it] 77%|███████▋  | 3988/5150 [9:41:14<2:48:13,  8.69s/it] 77%|███████▋  | 3989/5150 [9:41:22<2:47:45,  8.67s/it] 77%|███████▋  | 3990/5150 [9:41:31<2:47:23,  8.66s/it]                                                       {'loss': '5.415e-06', 'grad_norm': '1.197e-05', 'learning_rate': '2.94e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '146.9', 'tokens/total': 65380352, 'tokens/trainable': 20695964, 'epoch': '3.871'}
+ 77%|███████▋  | 3990/5150 [9:41:31<2:47:23,  8.66s/it] 77%|███████▋  | 3991/5150 [9:41:40<2:48:45,  8.74s/it] 78%|███████▊  | 3992/5150 [9:41:49<2:48:00,  8.71s/it] 78%|███████▊  | 3993/5150 [9:41:57<2:47:26,  8.68s/it] 78%|███████▊  | 3994/5150 [9:42:06<2:46:58,  8.67s/it] 78%|███████▊  | 3995/5150 [9:42:15<2:46:37,  8.66s/it] 78%|███████▊  | 3996/5150 [9:42:23<2:48:00,  8.74s/it] 78%|███████▊  | 3997/5150 [9:42:32<2:47:14,  8.70s/it] 78%|███████▊  | 3998/5150 [9:42:41<2:46:42,  8.68s/it] 78%|███████▊  | 3999/5150 [9:42:49<2:46:16,  8.67s/it] 78%|███████▊  | 4000/5150 [9:42:58<2:47:36,  8.74s/it]                                                       {'loss': '3.24e-06', 'grad_norm': '0.0007885', 'learning_rate': '2.892e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '142.9', 'tokens/total': 65544192, 'tokens/trainable': 20748316, 'epoch': '3.881'}
+ 78%|███████▊  | 4000/5150 [9:42:58<2:47:36,  8.74s/it] 78%|███████▊  | 4001/5150 [9:43:07<2:46:49,  8.71s/it] 78%|███████▊  | 4002/5150 [9:43:16<2:46:12,  8.69s/it] 78%|███████▊  | 4003/5150 [9:43:24<2:45:45,  8.67s/it] 78%|███████▊  | 4004/5150 [9:43:33<2:45:23,  8.66s/it] 78%|███████▊  | 4005/5150 [9:43:42<2:46:46,  8.74s/it] 78%|███████▊  | 4006/5150 [9:43:50<2:46:03,  8.71s/it] 78%|███████▊  | 4007/5150 [9:43:59<2:45:29,  8.69s/it] 78%|███████▊  | 4008/5150 [9:44:08<2:45:05,  8.67s/it] 78%|███████▊  | 4009/5150 [9:44:17<2:46:26,  8.75s/it] 78%|███████▊  | 4010/5150 [9:44:25<2:45:37,  8.72s/it]                                                       {'loss': '3.48e-05', 'grad_norm': '0.001807', 'learning_rate': '2.844e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '146.7', 'tokens/total': 65708032, 'tokens/trainable': 20799906, 'epoch': '3.89'}
+ 78%|███████▊  | 4010/5150 [9:44:25<2:45:37,  8.72s/it] 78%|███████▊  | 4011/5150 [9:44:34<2:45:05,  8.70s/it] 78%|███████▊  | 4012/5150 [9:44:42<2:44:36,  8.68s/it] 78%|███████▊  | 4013/5150 [9:44:51<2:44:14,  8.67s/it] 78%|███████▊  | 4014/5150 [9:45:00<2:45:38,  8.75s/it] 78%|███████▊  | 4015/5150 [9:45:09<2:44:50,  8.71s/it] 78%|███████▊  | 4016/5150 [9:45:17<2:44:14,  8.69s/it] 78%|███████▊  | 4017/5150 [9:45:26<2:43:48,  8.68s/it] 78%|███████▊  | 4018/5150 [9:45:35<2:45:08,  8.75s/it] 78%|███████▊  | 4019/5150 [9:45:44<2:44:20,  8.72s/it] 78%|███████▊  | 4020/5150 [9:45:52<2:43:44,  8.69s/it]                                                       {'loss': '8.211e-06', 'grad_norm': '2.269e-05', 'learning_rate': '2.797e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '141.1', 'tokens/total': 65871872, 'tokens/trainable': 20851598, 'epoch': '3.9'}
+ 78%|███████▊  | 4020/5150 [9:45:52<2:43:44,  8.69s/it] 78%|███████▊  | 4021/5150 [9:46:01<2:43:16,  8.68s/it] 78%|███████▊  | 4022/5150 [9:46:09<2:42:53,  8.66s/it] 78%|███████▊  | 4023/5150 [9:46:18<2:44:13,  8.74s/it] 78%|███████▊  | 4024/5150 [9:46:27<2:43:26,  8.71s/it] 78%|███████▊  | 4025/5150 [9:46:36<2:42:49,  8.68s/it] 78%|███████▊  | 4026/5150 [9:46:44<2:42:24,  8.67s/it] 78%|███████▊  | 4027/5150 [9:46:53<2:43:41,  8.75s/it] 78%|███████▊  | 4028/5150 [9:47:02<2:42:53,  8.71s/it] 78%|███████▊  | 4029/5150 [9:47:10<2:42:18,  8.69s/it] 78%|███████▊  | 4030/5150 [9:47:19<2:41:49,  8.67s/it]                                                       {'loss': '5.245e-06', 'grad_norm': '5.759e-06', 'learning_rate': '2.75e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '140.3', 'tokens/total': 66035712, 'tokens/trainable': 20902840, 'epoch': '3.91'}
+ 78%|███████▊  | 4030/5150 [9:47:19<2:41:49,  8.67s/it] 78%|███████▊  | 4031/5150 [9:47:28<2:41:30,  8.66s/it] 78%|███████▊  | 4032/5150 [9:47:37<2:42:51,  8.74s/it] 78%|███████▊  | 4033/5150 [9:47:45<2:42:05,  8.71s/it] 78%|███████▊  | 4034/5150 [9:47:54<2:41:33,  8.69s/it] 78%|███████▊  | 4035/5150 [9:48:03<2:41:07,  8.67s/it] 78%|███████▊  | 4036/5150 [9:48:12<2:42:29,  8.75s/it] 78%|███████▊  | 4037/5150 [9:48:20<2:41:40,  8.72s/it] 78%|███████▊  | 4038/5150 [9:48:29<2:41:02,  8.69s/it] 78%|███████▊  | 4039/5150 [9:48:37<2:40:34,  8.67s/it] 78%|███████▊  | 4040/5150 [9:48:46<2:40:10,  8.66s/it]                                                       {'loss': '2.859e-05', 'grad_norm': '3.389e-05', 'learning_rate': '2.704e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '143.7', 'tokens/total': 66199552, 'tokens/trainable': 20954320, 'epoch': '3.919'}
+ 78%|███████▊  | 4040/5150 [9:48:46<2:40:10,  8.66s/it] 78%|███████▊  | 4041/5150 [9:48:55<2:41:25,  8.73s/it] 78%|███████▊  | 4042/5150 [9:49:04<2:40:42,  8.70s/it] 79%|███████▊  | 4043/5150 [9:49:12<2:40:08,  8.68s/it] 79%|███████▊  | 4044/5150 [9:49:21<2:39:42,  8.66s/it] 79%|███████▊  | 4045/5150 [9:49:30<2:40:57,  8.74s/it] 79%|███████▊  | 4046/5150 [9:49:38<2:40:11,  8.71s/it] 79%|███████▊  | 4047/5150 [9:49:47<2:39:37,  8.68s/it] 79%|███████▊  | 4048/5150 [9:49:56<2:39:10,  8.67s/it] 79%|███████▊  | 4049/5150 [9:50:04<2:38:51,  8.66s/it] 79%|███████▊  | 4050/5150 [9:50:13<2:40:12,  8.74s/it]                                                       {'loss': '1.984e-05', 'grad_norm': '2.471e-05', 'learning_rate': '2.658e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '148.1', 'tokens/total': 66363392, 'tokens/trainable': 21006128, 'epoch': '3.929'}
+ 79%|███████▊  | 4050/5150 [9:50:13<2:40:12,  8.74s/it] 79%|███████▊  | 4051/5150 [9:50:22<2:39:29,  8.71s/it] 79%|███████▊  | 4052/5150 [9:50:30<2:38:56,  8.69s/it] 79%|███████▊  | 4053/5150 [9:50:39<2:38:28,  8.67s/it] 79%|███████▊  | 4054/5150 [9:50:48<2:39:40,  8.74s/it] 79%|███████▊  | 4055/5150 [9:50:57<2:38:56,  8.71s/it] 79%|███████▉  | 4056/5150 [9:51:05<2:38:22,  8.69s/it] 79%|███████▉  | 4057/5150 [9:51:14<2:37:53,  8.67s/it] 79%|███████▉  | 4058/5150 [9:51:23<2:37:32,  8.66s/it] 79%|███████▉  | 4059/5150 [9:51:31<2:38:52,  8.74s/it] 79%|███████▉  | 4060/5150 [9:51:40<2:38:07,  8.70s/it]                                                       {'loss': '2.747e-06', 'grad_norm': '2.101e-05', 'learning_rate': '2.612e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '150.7', 'tokens/total': 66527232, 'tokens/trainable': 21057520, 'epoch': '3.939'}
+ 79%|███████▉  | 4060/5150 [9:51:40<2:38:07,  8.70s/it] 79%|███████▉  | 4061/5150 [9:51:49<2:37:35,  8.68s/it] 79%|███████▉  | 4062/5150 [9:51:57<2:37:10,  8.67s/it] 79%|███████▉  | 4063/5150 [9:52:06<2:38:22,  8.74s/it] 79%|███████▉  | 4064/5150 [9:52:15<2:37:38,  8.71s/it] 79%|███████▉  | 4065/5150 [9:52:24<2:37:06,  8.69s/it] 79%|███████▉  | 4066/5150 [9:52:32<2:36:38,  8.67s/it] 79%|███████▉  | 4067/5150 [9:52:41<2:36:17,  8.66s/it] 79%|███████▉  | 4068/5150 [9:52:50<2:37:33,  8.74s/it] 79%|███████▉  | 4069/5150 [9:52:58<2:36:49,  8.70s/it] 79%|███████▉  | 4070/5150 [9:53:07<2:36:15,  8.68s/it]                                                       {'loss': '3.443e-05', 'grad_norm': '0.001272', 'learning_rate': '2.566e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '146.6', 'tokens/total': 66691072, 'tokens/trainable': 21109770, 'epoch': '3.949'}
+ 79%|███████▉  | 4070/5150 [9:53:07<2:36:15,  8.68s/it] 79%|███████▉  | 4071/5150 [9:53:16<2:35:51,  8.67s/it] 79%|███████▉  | 4072/5150 [9:53:25<2:37:48,  8.78s/it] 79%|███████▉  | 4073/5150 [9:53:33<2:36:51,  8.74s/it] 79%|███████▉  | 4074/5150 [9:53:42<2:36:08,  8.71s/it] 79%|███████▉  | 4075/5150 [9:53:51<2:35:34,  8.68s/it] 79%|███████▉  | 4076/5150 [9:53:59<2:35:13,  8.67s/it] 79%|███████▉  | 4077/5150 [9:54:08<2:36:31,  8.75s/it] 79%|███████▉  | 4078/5150 [9:54:17<2:35:44,  8.72s/it] 79%|███████▉  | 4079/5150 [9:54:25<2:35:11,  8.69s/it] 79%|███████▉  | 4080/5150 [9:54:34<2:34:43,  8.68s/it]                                                       {'loss': '9.124e-06', 'grad_norm': '1.449e-05', 'learning_rate': '2.521e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '143', 'tokens/total': 66854912, 'tokens/trainable': 21162698, 'epoch': '3.958'}
+ 79%|███████▉  | 4080/5150 [9:54:34<2:34:43,  8.68s/it] 79%|███████▉  | 4081/5150 [9:54:43<2:35:56,  8.75s/it] 79%|███████▉  | 4082/5150 [9:54:52<2:35:06,  8.71s/it] 79%|███████▉  | 4083/5150 [9:55:00<2:34:31,  8.69s/it] 79%|███████▉  | 4084/5150 [9:55:09<2:34:05,  8.67s/it] 79%|███████▉  | 4085/5150 [9:55:17<2:33:42,  8.66s/it] 79%|███████▉  | 4086/5150 [9:55:26<2:34:58,  8.74s/it] 79%|███████▉  | 4087/5150 [9:55:35<2:34:14,  8.71s/it] 79%|███████▉  | 4088/5150 [9:55:44<2:33:41,  8.68s/it] 79%|███████▉  | 4089/5150 [9:55:52<2:33:18,  8.67s/it] 79%|███████▉  | 4090/5150 [9:56:01<2:34:35,  8.75s/it]                                                       {'loss': '1.567e-05', 'grad_norm': '0.000514', 'learning_rate': '2.476e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '150.7', 'tokens/total': 67018752, 'tokens/trainable': 21214728, 'epoch': '3.968'}
+ 79%|███████▉  | 4090/5150 [9:56:01<2:34:35,  8.75s/it] 79%|███████▉  | 4091/5150 [9:56:10<2:33:52,  8.72s/it] 79%|███████▉  | 4092/5150 [9:56:19<2:33:15,  8.69s/it] 79%|███████▉  | 4093/5150 [9:56:27<2:32:46,  8.67s/it] 79%|███████▉  | 4094/5150 [9:56:36<2:32:22,  8.66s/it] 80%|███████▉  | 4095/5150 [9:56:45<2:33:39,  8.74s/it] 80%|███████▉  | 4096/5150 [9:56:53<2:32:54,  8.70s/it] 80%|███████▉  | 4097/5150 [9:57:02<2:32:21,  8.68s/it] 80%|███████▉  | 4098/5150 [9:57:11<2:31:57,  8.67s/it] 80%|███████▉  | 4099/5150 [9:57:19<2:31:36,  8.65s/it] 80%|███████▉  | 4100/5150 [9:57:28<2:32:49,  8.73s/it]                                                       {'loss': '3.137e-06', 'grad_norm': '0.000435', 'learning_rate': '2.432e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '153.7', 'tokens/total': 67182592, 'tokens/trainable': 21266516, 'epoch': '3.978'}
+ 80%|███████▉  | 4100/5150 [9:57:28<2:32:49,  8.73s/it] 80%|███████▉  | 4101/5150 [9:57:37<2:32:09,  8.70s/it] 80%|███████▉  | 4102/5150 [9:57:45<2:31:36,  8.68s/it] 80%|███████▉  | 4103/5150 [9:57:54<2:31:13,  8.67s/it] 80%|███████▉  | 4104/5150 [9:58:03<2:32:24,  8.74s/it] 80%|███████▉  | 4105/5150 [9:58:12<2:31:40,  8.71s/it] 80%|███████▉  | 4106/5150 [9:58:20<2:31:05,  8.68s/it] 80%|███████▉  | 4107/5150 [9:58:29<2:30:40,  8.67s/it] 80%|███████▉  | 4108/5150 [9:58:37<2:30:19,  8.66s/it] 80%|███████▉  | 4109/5150 [9:58:46<2:31:33,  8.74s/it] 80%|███████▉  | 4110/5150 [9:58:55<2:30:50,  8.70s/it]                                                       {'loss': '6.112e-06', 'grad_norm': '0.0008028', 'learning_rate': '2.388e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '154.5', 'tokens/total': 67346432, 'tokens/trainable': 21318672, 'epoch': '3.987'}
+ 80%|███████▉  | 4110/5150 [9:58:55<2:30:50,  8.70s/it] 80%|███████▉  | 4111/5150 [9:59:04<2:30:20,  8.68s/it] 80%|███████▉  | 4112/5150 [9:59:12<2:29:56,  8.67s/it] 80%|███████▉  | 4113/5150 [9:59:21<2:31:03,  8.74s/it] 80%|███████▉  | 4114/5150 [9:59:30<2:30:22,  8.71s/it] 80%|███████▉  | 4115/5150 [9:59:38<2:29:50,  8.69s/it] 80%|███████▉  | 4116/5150 [9:59:47<2:29:24,  8.67s/it] 80%|███████▉  | 4117/5150 [9:59:56<2:29:04,  8.66s/it] 80%|███████▉  | 4118/5150 [10:00:05<2:30:29,  8.75s/it] 80%|███████▉  | 4119/5150 [10:00:13<2:29:52,  8.72s/it] 80%|████████  | 4120/5150 [10:00:22<2:29:20,  8.70s/it]                                                        {'loss': '6.084e-05', 'grad_norm': '1.173e-05', 'learning_rate': '2.344e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '153.7', 'tokens/total': 67510272, 'tokens/trainable': 21371364, 'epoch': '3.997'}
+ 80%|████████  | 4120/5150 [10:00:22<2:29:20,  8.70s/it][2026-03-05 13:33:02,632] [INFO] [axolotl.core.trainers.base.evaluate:400] [PID:1482537] Running evaluation step...
+[2026-03-05 13:33:03,769] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.5704591274261475
+[2026-03-05 13:33:04,335] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.5659823417663574
+[2026-03-05 13:33:04,911] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.5753459930419922
+[2026-03-05 13:33:05,491] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.5795443058013916
+[2026-03-05 13:33:05,491] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:1482537] gather_len_batches: [17]
+
+  0%|          | 0/17 [00:00<?, ?it/s][A
+ 12%|█▏        | 2/17 [00:00<00:04,  3.25it/s][A
+ 18%|█▊        | 3/17 [00:01<00:06,  2.29it/s][A
+ 24%|██▎       | 4/17 [00:01<00:06,  1.98it/s][A
+ 29%|██▉       | 5/17 [00:02<00:08,  1.49it/s][A
+ 35%|███▌      | 6/17 [00:03<00:07,  1.54it/s][A
+ 41%|████      | 7/17 [00:04<00:06,  1.56it/s][A
+ 47%|████▋     | 8/17 [00:04<00:05,  1.58it/s][A
+ 53%|█████▎    | 9/17 [00:05<00:05,  1.54it/s][A
+ 59%|█████▉    | 10/17 [00:05<00:04,  1.56it/s][A
+ 65%|██████▍   | 11/17 [00:06<00:03,  1.58it/s][A
+ 71%|███████   | 12/17 [00:07<00:03,  1.59it/s][A
+ 76%|███████▋  | 13/17 [00:07<00:02,  1.52it/s][A
+ 82%|████████▏ | 14/17 [00:08<00:01,  1.55it/s][A
+ 88%|████████▊ | 15/17 [00:09<00:01,  1.57it/s][A
+ 94%|█████████▍| 16/17 [00:09<00:00,  1.58it/s][ATraceback (most recent call last):
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 300, in _run_finalizers
+    finalizer()
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 224, in __call__
+    res = self._callback(*self._args, **self._kwargs)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 133, in _remove_temp_dir
+    rmtree(tempdir)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 725, in rmtree
+    _rmtree_safe_fd(fd, path, onerror)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 681, in _rmtree_safe_fd
+    onerror(os.unlink, fullname, sys.exc_info())
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 679, in _rmtree_safe_fd
+    os.unlink(entry.name, dir_fd=topfd)
+OSError: [Errno 16] Device or resource busy: '.nfs000000000008615400006113'
+
+100%|██████████| 17/17 [00:10<00:00,  1.43it/s][A                                                        
+                                               [A{'eval_loss': '1.405e-05', 'eval_runtime': '12.12', 'eval_samples_per_second': '16.51', 'eval_steps_per_second': '8.254', 'eval_ppl': '1', 'memory/max_active (GiB)': '14.2', 'memory/max_allocated (GiB)': '14.2', 'memory/device_reserved (GiB)': '18.85', 'epoch': '3.997', 'tokens/train_per_sec_per_gpu': '0'}
+ 80%|████████  | 4120/5150 [10:00:37<2:29:20,  8.70s/it]
+100%|██████████| 17/17 [00:10<00:00,  1.43it/s][A
+                                               [A[2026-03-05 13:33:17,648] [INFO] [axolotl.core.trainers.base._save:721] [PID:1482537] Saving model checkpoint to /home/jiaruil5/math_rl/mix_teachers/r3lit_rl/mix_teachers/checkpoints/math_operations/primitive_atomic_balanced_sft_50k_t20260305/checkpoint-4120
+ 80%|████████  | 4121/5150 [10:00:56<4:38:25, 16.23s/it] 80%|████████  | 4122/5150 [10:01:05<4:03:20, 14.20s/it]Traceback (most recent call last):
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 300, in _run_finalizers
+    finalizer()
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 224, in __call__
+    res = self._callback(*self._args, **self._kwargs)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 133, in _remove_temp_dir
+    rmtree(tempdir)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 725, in rmtree
+    _rmtree_safe_fd(fd, path, onerror)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 681, in _rmtree_safe_fd
+    onerror(os.unlink, fullname, sys.exc_info())
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 679, in _rmtree_safe_fd
+    os.unlink(entry.name, dir_fd=topfd)
+OSError: [Errno 16] Device or resource busy: '.nfs00000000000862e400006114'
+ 80%|████████  | 4123/5150 [10:01:15<3:37:49, 12.73s/it] 80%|████████  | 4124/5150 [10:01:25<3:28:08, 12.17s/it] 80%|████████  | 4125/5150 [10:01:34<3:09:42, 11.10s/it] 80%|████████  | 4126/5150 [10:01:43<2:56:46, 10.36s/it] 80%|████████  | 4127/5150 [10:01:51<2:47:41,  9.84s/it] 80%|████████  | 4128/5150 [10:02:00<2:43:18,  9.59s/it] 80%|████████  | 4129/5150 [10:02:09<2:38:11,  9.30s/it] 80%|████████  | 4130/5150 [10:02:18<2:34:36,  9.09s/it]                                                        {'loss': '0.0001141', 'grad_norm': '0.002267', 'learning_rate': '2.3e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.73', 'memory/max_allocated (GiB)': '16.73', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '144.8', 'tokens/total': 67674112, 'tokens/trainable': 21422276, 'epoch': '4.007'}
+ 80%|████████  | 4130/5150 [10:02:18<2:34:36,  9.09s/it] 80%|████████  | 4131/5150 [10:02:26<2:32:04,  8.95s/it] 80%|████████  | 4132/5150 [10:02:35<2:31:42,  8.94s/it] 80%|████████  | 4133/5150 [10:02:44<2:29:56,  8.85s/it] 80%|████████  | 4134/5150 [10:02:52<2:28:40,  8.78s/it] 80%|████████  | 4135/5150 [10:03:01<2:27:44,  8.73s/it] 80%|████████  | 4136/5150 [10:03:10<2:27:03,  8.70s/it] 80%|████████  | 4137/5150 [10:03:18<2:28:02,  8.77s/it] 80%|████████  | 4138/5150 [10:03:27<2:27:11,  8.73s/it] 80%|████████  | 4139/5150 [10:03:36<2:26:34,  8.70s/it] 80%|████████  | 4140/5150 [10:03:44<2:26:06,  8.68s/it]                                                        {'loss': '5.279e-06', 'grad_norm': '0.0001342', 'learning_rate': '2.257e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '142.4', 'tokens/total': 67837952, 'tokens/trainable': 21473640, 'epoch': '4.016'}
+ 80%|████████  | 4140/5150 [10:03:44<2:26:06,  8.68s/it] 80%|████████  | 4141/5150 [10:03:53<2:25:46,  8.67s/it] 80%|████████  | 4142/5150 [10:04:02<2:27:05,  8.76s/it] 80%|████████  | 4143/5150 [10:04:11<2:26:19,  8.72s/it] 80%|████████  | 4144/5150 [10:04:19<2:25:43,  8.69s/it] 80%|████████  | 4145/5150 [10:04:28<2:25:17,  8.67s/it] 81%|████████  | 4146/5150 [10:04:37<2:26:27,  8.75s/it] 81%|████████  | 4147/5150 [10:04:45<2:25:45,  8.72s/it] 81%|████████  | 4148/5150 [10:04:54<2:25:12,  8.69s/it] 81%|████████  | 4149/5150 [10:05:03<2:24:45,  8.68s/it] 81%|████████  | 4150/5150 [10:05:11<2:24:22,  8.66s/it]                                                        {'loss': '4.803e-06', 'grad_norm': '0.0002097', 'learning_rate': '2.215e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '153.6', 'tokens/total': 68001792, 'tokens/trainable': 21525888, 'epoch': '4.026'}
+ 81%|████████  | 4150/5150 [10:05:11<2:24:22,  8.66s/it] 81%|████████  | 4151/5150 [10:05:20<2:25:34,  8.74s/it] 81%|████████  | 4152/5150 [10:05:29<2:24:52,  8.71s/it] 81%|████████  | 4153/5150 [10:05:38<2:24:20,  8.69s/it] 81%|████████  | 4154/5150 [10:05:46<2:23:56,  8.67s/it] 81%|████████  | 4155/5150 [10:05:55<2:25:01,  8.75s/it] 81%|████████  | 4156/5150 [10:06:04<2:24:19,  8.71s/it] 81%|████████  | 4157/5150 [10:06:12<2:23:46,  8.69s/it] 81%|████████  | 4158/5150 [10:06:21<2:23:23,  8.67s/it] 81%|████████  | 4159/5150 [10:06:30<2:23:07,  8.67s/it] 81%|████████  | 4160/5150 [10:06:39<2:24:18,  8.75s/it]                                                        {'loss': '1.086e-05', 'grad_norm': '7.294e-05', 'learning_rate': '2.172e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '144.6', 'tokens/total': 68165632, 'tokens/trainable': 21577396, 'epoch': '4.036'}
+ 81%|████████  | 4160/5150 [10:06:39<2:24:18,  8.75s/it] 81%|████████  | 4161/5150 [10:06:47<2:23:36,  8.71s/it] 81%|████████  | 4162/5150 [10:06:56<2:23:04,  8.69s/it] 81%|████████  | 4163/5150 [10:07:04<2:22:39,  8.67s/it] 81%|████████  | 4164/5150 [10:07:13<2:23:47,  8.75s/it] 81%|████████  | 4165/5150 [10:07:22<2:23:05,  8.72s/it] 81%|████████  | 4166/5150 [10:07:31<2:22:34,  8.69s/it] 81%|████████  | 4167/5150 [10:07:39<2:22:08,  8.68s/it] 81%|████████  | 4168/5150 [10:07:48<2:21:47,  8.66s/it] 81%|████████  | 4169/5150 [10:07:57<2:22:57,  8.74s/it] 81%|████████  | 4170/5150 [10:08:06<2:22:16,  8.71s/it]                                                        {'loss': '7.812e-06', 'grad_norm': '0.0003193', 'learning_rate': '2.13e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '165.8', 'tokens/total': 68329472, 'tokens/trainable': 21629380, 'epoch': '4.046'}
+ 81%|████████  | 4170/5150 [10:08:06<2:22:16,  8.71s/it] 81%|████████  | 4171/5150 [10:08:14<2:21:45,  8.69s/it] 81%|████████  | 4172/5150 [10:08:23<2:21:21,  8.67s/it] 81%|████████  | 4173/5150 [10:08:32<2:22:31,  8.75s/it] 81%|████████  | 4174/5150 [10:08:40<2:21:46,  8.72s/it] 81%|████████  | 4175/5150 [10:08:49<2:21:14,  8.69s/it] 81%|████████  | 4176/5150 [10:08:58<2:20:48,  8.67s/it] 81%|████████  | 4177/5150 [10:09:06<2:20:29,  8.66s/it] 81%|████████  | 4178/5150 [10:09:15<2:21:33,  8.74s/it] 81%|████████  | 4179/5150 [10:09:24<2:20:54,  8.71s/it] 81%|████████  | 4180/5150 [10:09:32<2:20:24,  8.68s/it]                                                        {'loss': '5.263e-06', 'grad_norm': '0.001048', 'learning_rate': '2.089e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '147.6', 'tokens/total': 68493312, 'tokens/trainable': 21680936, 'epoch': '4.055'}
+ 81%|████████  | 4180/5150 [10:09:32<2:20:24,  8.68s/it] 81%|████████  | 4181/5150 [10:09:41<2:20:01,  8.67s/it] 81%|████████  | 4182/5150 [10:09:50<2:21:10,  8.75s/it] 81%|████████  | 4183/5150 [10:09:59<2:20:26,  8.71s/it] 81%|████████  | 4184/5150 [10:10:07<2:19:53,  8.69s/it] 81%|████████▏ | 4185/5150 [10:10:16<2:19:29,  8.67s/it] 81%|████████▏ | 4186/5150 [10:10:25<2:19:10,  8.66s/it] 81%|████████▏ | 4187/5150 [10:10:33<2:20:18,  8.74s/it] 81%|████████▏ | 4188/5150 [10:10:42<2:19:39,  8.71s/it] 81%|████████▏ | 4189/5150 [10:10:51<2:19:08,  8.69s/it] 81%|████████▏ | 4190/5150 [10:10:59<2:18:44,  8.67s/it]                                                        {'loss': '5.588e-06', 'grad_norm': '0.0002832', 'learning_rate': '2.047e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '171.7', 'tokens/total': 68657152, 'tokens/trainable': 21733092, 'epoch': '4.065'}
+ 81%|████████▏ | 4190/5150 [10:10:59<2:18:44,  8.67s/it] 81%|████████▏ | 4191/5150 [10:11:08<2:19:51,  8.75s/it] 81%|████████▏ | 4192/5150 [10:11:17<2:19:08,  8.71s/it] 81%|████████▏ | 4193/5150 [10:11:26<2:18:36,  8.69s/it] 81%|████████▏ | 4194/5150 [10:11:34<2:18:13,  8.68s/it] 81%|████████▏ | 4195/5150 [10:11:43<2:17:54,  8.66s/it] 81%|████████▏ | 4196/5150 [10:11:52<2:19:07,  8.75s/it] 81%|████████▏ | 4197/5150 [10:12:00<2:18:25,  8.72s/it] 82%|████████▏ | 4198/5150 [10:12:09<2:17:51,  8.69s/it] 82%|████████▏ | 4199/5150 [10:12:18<2:17:26,  8.67s/it] 82%|████████▏ | 4200/5150 [10:12:27<2:18:29,  8.75s/it]                                                        {'loss': '3.36e-05', 'grad_norm': '0.0161', 'learning_rate': '2.007e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '134.4', 'tokens/total': 68820992, 'tokens/trainable': 21784626, 'epoch': '4.075'}
+ 82%|████████▏ | 4200/5150 [10:12:27<2:18:29,  8.75s/it] 82%|████████▏ | 4201/5150 [10:12:35<2:17:47,  8.71s/it] 82%|████████▏ | 4202/5150 [10:12:44<2:17:14,  8.69s/it] 82%|████████▏ | 4203/5150 [10:12:53<2:16:48,  8.67s/it] 82%|████████▏ | 4204/5150 [10:13:01<2:16:30,  8.66s/it] 82%|████████▏ | 4205/5150 [10:13:10<2:17:35,  8.74s/it] 82%|████████▏ | 4206/5150 [10:13:19<2:16:57,  8.70s/it] 82%|████████▏ | 4207/5150 [10:13:27<2:16:27,  8.68s/it] 82%|████████▏ | 4208/5150 [10:13:36<2:16:03,  8.67s/it] 82%|████████▏ | 4209/5150 [10:13:45<2:17:10,  8.75s/it] 82%|████████▏ | 4210/5150 [10:13:54<2:16:29,  8.71s/it]                                                        {'loss': '1.109e-05', 'grad_norm': '3.268e-05', 'learning_rate': '1.966e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '158.6', 'tokens/total': 68984832, 'tokens/trainable': 21836860, 'epoch': '4.084'}
+ 82%|████████▏ | 4210/5150 [10:13:54<2:16:29,  8.71s/it] 82%|████████▏ | 4211/5150 [10:14:02<2:16:00,  8.69s/it] 82%|████████▏ | 4212/5150 [10:14:11<2:15:35,  8.67s/it] 82%|████████▏ | 4213/5150 [10:14:19<2:15:14,  8.66s/it] 82%|████████▏ | 4214/5150 [10:14:28<2:16:21,  8.74s/it] 82%|████████▏ | 4215/5150 [10:14:37<2:15:42,  8.71s/it] 82%|████████▏ | 4216/5150 [10:14:46<2:15:11,  8.68s/it] 82%|████████▏ | 4217/5150 [10:14:54<2:14:47,  8.67s/it] 82%|████████▏ | 4218/5150 [10:15:03<2:14:29,  8.66s/it] 82%|████████▏ | 4219/5150 [10:15:12<2:15:40,  8.74s/it] 82%|████████▏ | 4220/5150 [10:15:20<2:15:00,  8.71s/it]                                                        {'loss': '1.419e-06', 'grad_norm': '0.0001049', 'learning_rate': '1.926e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '144.4', 'tokens/total': 69148672, 'tokens/trainable': 21888778, 'epoch': '4.094'}
+ 82%|████████▏ | 4220/5150 [10:15:20<2:15:00,  8.71s/it] 82%|████████▏ | 4221/5150 [10:15:29<2:14:30,  8.69s/it] 82%|████████▏ | 4222/5150 [10:15:38<2:14:05,  8.67s/it] 82%|████████▏ | 4223/5150 [10:15:47<2:15:04,  8.74s/it] 82%|████████▏ | 4224/5150 [10:15:55<2:14:26,  8.71s/it] 82%|████████▏ | 4225/5150 [10:16:04<2:13:55,  8.69s/it] 82%|████████▏ | 4226/5150 [10:16:13<2:13:31,  8.67s/it] 82%|████████▏ | 4227/5150 [10:16:21<2:13:11,  8.66s/it] 82%|████████▏ | 4228/5150 [10:16:30<2:14:20,  8.74s/it] 82%|████████▏ | 4229/5150 [10:16:39<2:13:38,  8.71s/it] 82%|████████▏ | 4230/5150 [10:16:47<2:13:09,  8.68s/it]                                                        {'loss': '2.185e-06', 'grad_norm': '0.0001316', 'learning_rate': '1.886e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '150.9', 'tokens/total': 69312512, 'tokens/trainable': 21940814, 'epoch': '4.104'}
+ 82%|████████▏ | 4230/5150 [10:16:47<2:13:09,  8.68s/it] 82%|████████▏ | 4231/5150 [10:16:56<2:12:46,  8.67s/it] 82%|████████▏ | 4232/5150 [10:17:05<2:13:47,  8.75s/it] 82%|████████▏ | 4233/5150 [10:17:14<2:13:07,  8.71s/it] 82%|████████▏ | 4234/5150 [10:17:22<2:12:35,  8.68s/it] 82%|████████▏ | 4235/5150 [10:17:31<2:12:11,  8.67s/it] 82%|████████▏ | 4236/5150 [10:17:39<2:11:54,  8.66s/it] 82%|████████▏ | 4237/5150 [10:17:48<2:12:59,  8.74s/it] 82%|████████▏ | 4238/5150 [10:17:57<2:12:20,  8.71s/it] 82%|████████▏ | 4239/5150 [10:18:06<2:11:50,  8.68s/it] 82%|████████▏ | 4240/5150 [10:18:14<2:11:27,  8.67s/it]                                                        {'loss': '5.964e-06', 'grad_norm': '8.857e-05', 'learning_rate': '1.847e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '144.9', 'tokens/total': 69476352, 'tokens/trainable': 21992198, 'epoch': '4.113'}
+ 82%|████████▏ | 4240/5150 [10:18:14<2:11:27,  8.67s/it] 82%|████████▏ | 4241/5150 [10:18:23<2:12:29,  8.75s/it] 82%|████████▏ | 4242/5150 [10:18:32<2:11:48,  8.71s/it] 82%|████████▏ | 4243/5150 [10:18:40<2:11:17,  8.69s/it] 82%|████████▏ | 4244/5150 [10:18:49<2:10:54,  8.67s/it] 82%|████████▏ | 4245/5150 [10:18:58<2:11:51,  8.74s/it] 82%|████████▏ | 4246/5150 [10:19:07<2:11:11,  8.71s/it] 82%|████████▏ | 4247/5150 [10:19:15<2:10:42,  8.68s/it] 82%|████████▏ | 4248/5150 [10:19:24<2:10:20,  8.67s/it] 83%|████████▎ | 4249/5150 [10:19:33<2:10:02,  8.66s/it] 83%|████████▎ | 4250/5150 [10:19:41<2:11:15,  8.75s/it]                                                        {'loss': '8.565e-07', 'grad_norm': '7.408e-06', 'learning_rate': '1.808e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '143.7', 'tokens/total': 69640192, 'tokens/trainable': 22043452, 'epoch': '4.123'}
+ 83%|████████▎ | 4250/5150 [10:19:41<2:11:15,  8.75s/it] 83%|████████▎ | 4251/5150 [10:19:50<2:10:35,  8.72s/it] 83%|████████▎ | 4252/5150 [10:19:59<2:10:04,  8.69s/it] 83%|████████▎ | 4253/5150 [10:20:07<2:09:37,  8.67s/it] 83%|████████▎ | 4254/5150 [10:20:16<2:09:17,  8.66s/it] 83%|████████▎ | 4255/5150 [10:20:25<2:10:18,  8.74s/it] 83%|████████▎ | 4256/5150 [10:20:34<2:09:41,  8.70s/it] 83%|████████▎ | 4257/5150 [10:20:42<2:09:13,  8.68s/it] 83%|████████▎ | 4258/5150 [10:20:51<2:08:49,  8.67s/it] 83%|████████▎ | 4259/5150 [10:21:00<2:09:47,  8.74s/it] 83%|████████▎ | 4260/5150 [10:21:08<2:09:09,  8.71s/it]                                                        {'loss': '6.895e-06', 'grad_norm': '4.456e-06', 'learning_rate': '1.769e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '168.7', 'tokens/total': 69804032, 'tokens/trainable': 22095800, 'epoch': '4.133'}
+ 83%|████████▎ | 4260/5150 [10:21:08<2:09:09,  8.71s/it] 83%|████████▎ | 4261/5150 [10:21:17<2:08:41,  8.69s/it] 83%|████████▎ | 4262/5150 [10:21:26<2:08:17,  8.67s/it] 83%|████████▎ | 4263/5150 [10:21:34<2:07:58,  8.66s/it] 83%|████████▎ | 4264/5150 [10:21:43<2:09:00,  8.74s/it] 83%|████████▎ | 4265/5150 [10:21:52<2:08:22,  8.70s/it] 83%|████████▎ | 4266/5150 [10:22:00<2:07:54,  8.68s/it] 83%|████████▎ | 4267/5150 [10:22:09<2:07:32,  8.67s/it] 83%|████████▎ | 4268/5150 [10:22:18<2:08:32,  8.74s/it] 83%|████████▎ | 4269/5150 [10:22:27<2:07:54,  8.71s/it] 83%|████████▎ | 4270/5150 [10:22:35<2:07:26,  8.69s/it]                                                        {'loss': '5.809e-06', 'grad_norm': '0.0001109', 'learning_rate': '1.731e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '158.4', 'tokens/total': 69967872, 'tokens/trainable': 22147912, 'epoch': '4.143'}
+ 83%|████████▎ | 4270/5150 [10:22:35<2:07:26,  8.69s/it] 83%|████████▎ | 4271/5150 [10:22:44<2:07:05,  8.68s/it] 83%|████████▎ | 4272/5150 [10:22:53<2:06:47,  8.66s/it] 83%|████████▎ | 4273/5150 [10:23:01<2:07:49,  8.74s/it] 83%|████████▎ | 4274/5150 [10:23:10<2:07:10,  8.71s/it] 83%|████████▎ | 4275/5150 [10:23:19<2:06:43,  8.69s/it] 83%|████████▎ | 4276/5150 [10:23:27<2:06:21,  8.67s/it] 83%|████████▎ | 4277/5150 [10:23:36<2:07:23,  8.76s/it] 83%|████████▎ | 4278/5150 [10:23:45<2:06:43,  8.72s/it] 83%|████████▎ | 4279/5150 [10:23:54<2:06:12,  8.69s/it] 83%|████████▎ | 4280/5150 [10:24:02<2:05:49,  8.68s/it]                                                        {'loss': '3.146e-06', 'grad_norm': '1.907e-05', 'learning_rate': '1.693e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '149.4', 'tokens/total': 70131712, 'tokens/trainable': 22200018, 'epoch': '4.152'}
+ 83%|████████▎ | 4280/5150 [10:24:02<2:05:49,  8.68s/it] 83%|████████▎ | 4281/5150 [10:24:11<2:05:32,  8.67s/it] 83%|████████▎ | 4282/5150 [10:24:20<2:06:33,  8.75s/it] 83%|████████▎ | 4283/5150 [10:24:28<2:05:56,  8.72s/it] 83%|████████▎ | 4284/5150 [10:24:37<2:05:27,  8.69s/it] 83%|████████▎ | 4285/5150 [10:24:46<2:05:02,  8.67s/it] 83%|████████▎ | 4286/5150 [10:24:55<2:06:01,  8.75s/it] 83%|████████▎ | 4287/5150 [10:25:03<2:05:20,  8.71s/it] 83%|████████▎ | 4288/5150 [10:25:12<2:04:49,  8.69s/it] 83%|████████▎ | 4289/5150 [10:25:21<2:04:26,  8.67s/it] 83%|████████▎ | 4290/5150 [10:25:29<2:04:08,  8.66s/it]                                                        {'loss': '7.404e-06', 'grad_norm': '0.0008786', 'learning_rate': '1.655e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '165.4', 'tokens/total': 70295552, 'tokens/trainable': 22251920, 'epoch': '4.162'}
+ 83%|████████▎ | 4290/5150 [10:25:29<2:04:08,  8.66s/it] 83%|████████▎ | 4291/5150 [10:25:38<2:05:10,  8.74s/it] 83%|████████▎ | 4292/5150 [10:25:47<2:04:32,  8.71s/it] 83%|████████▎ | 4293/5150 [10:25:55<2:04:03,  8.69s/it] 83%|████████▎ | 4294/5150 [10:26:04<2:03:40,  8.67s/it] 83%|████████▎ | 4295/5150 [10:26:13<2:04:38,  8.75s/it] 83%|████████▎ | 4296/5150 [10:26:22<2:04:00,  8.71s/it] 83%|████████▎ | 4297/5150 [10:26:30<2:03:31,  8.69s/it] 83%|████████▎ | 4298/5150 [10:26:39<2:03:07,  8.67s/it] 83%|████████▎ | 4299/5150 [10:26:47<2:02:50,  8.66s/it] 83%|████████▎ | 4300/5150 [10:26:56<2:03:50,  8.74s/it]                                                        {'loss': '2.395e-06', 'grad_norm': '1.118e-05', 'learning_rate': '1.618e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '148.2', 'tokens/total': 70459392, 'tokens/trainable': 22303784, 'epoch': '4.172'}
+ 83%|████████▎ | 4300/5150 [10:26:56<2:03:50,  8.74s/it] 84%|████████▎ | 4301/5150 [10:27:05<2:03:14,  8.71s/it] 84%|████████▎ | 4302/5150 [10:27:14<2:02:46,  8.69s/it] 84%|████████▎ | 4303/5150 [10:27:22<2:02:26,  8.67s/it] 84%|████████▎ | 4304/5150 [10:27:31<2:03:26,  8.76s/it] 84%|████████▎ | 4305/5150 [10:27:40<2:02:49,  8.72s/it] 84%|████████▎ | 4306/5150 [10:27:49<2:02:19,  8.70s/it] 84%|████████▎ | 4307/5150 [10:27:57<2:01:55,  8.68s/it] 84%|████████▎ | 4308/5150 [10:28:06<2:01:35,  8.66s/it] 84%|████████▎ | 4309/5150 [10:28:15<2:02:33,  8.74s/it] 84%|████████▎ | 4310/5150 [10:28:23<2:01:55,  8.71s/it]                                                        {'loss': '8.365e-06', 'grad_norm': '0.0001098', 'learning_rate': '1.581e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '151.8', 'tokens/total': 70623232, 'tokens/trainable': 22356272, 'epoch': '4.181'}
+ 84%|████████▎ | 4310/5150 [10:28:23<2:01:55,  8.71s/it] 84%|████████▎ | 4311/5150 [10:28:32<2:01:28,  8.69s/it] 84%|████████▎ | 4312/5150 [10:28:41<2:01:05,  8.67s/it] 84%|████████▎ | 4313/5150 [10:28:50<2:02:02,  8.75s/it] 84%|████████▍ | 4314/5150 [10:28:58<2:01:23,  8.71s/it] 84%|████████▍ | 4315/5150 [10:29:07<2:00:53,  8.69s/it] 84%|████████▍ | 4316/5150 [10:29:15<2:00:30,  8.67s/it] 84%|████████▍ | 4317/5150 [10:29:24<2:00:13,  8.66s/it] 84%|████████▍ | 4318/5150 [10:29:33<2:01:12,  8.74s/it] 84%|████████▍ | 4319/5150 [10:29:42<2:00:37,  8.71s/it] 84%|████████▍ | 4320/5150 [10:29:50<2:00:08,  8.68s/it]                                                        {'loss': '2.598e-06', 'grad_norm': '3.664e-05', 'learning_rate': '1.545e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '139', 'tokens/total': 70787072, 'tokens/trainable': 22408144, 'epoch': '4.191'}
+ 84%|████████▍ | 4320/5150 [10:29:50<2:00:08,  8.68s/it] 84%|████████▍ | 4321/5150 [10:29:59<1:59:46,  8.67s/it] 84%|████████▍ | 4322/5150 [10:30:08<1:59:29,  8.66s/it] 84%|████████▍ | 4323/5150 [10:30:16<2:00:24,  8.74s/it] 84%|████████▍ | 4324/5150 [10:30:25<1:59:49,  8.70s/it] 84%|████████▍ | 4325/5150 [10:30:34<1:59:22,  8.68s/it] 84%|████████▍ | 4326/5150 [10:30:42<1:59:01,  8.67s/it] 84%|████████▍ | 4327/5150 [10:30:51<1:59:58,  8.75s/it] 84%|████████▍ | 4328/5150 [10:31:00<1:59:20,  8.71s/it] 84%|████████▍ | 4329/5150 [10:31:09<1:58:50,  8.68s/it] 84%|████████▍ | 4330/5150 [10:31:17<1:58:27,  8.67s/it]                                                        {'loss': '2.404e-06', 'grad_norm': '2.505e-05', 'learning_rate': '1.509e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '148.1', 'tokens/total': 70950912, 'tokens/trainable': 22459876, 'epoch': '4.201'}
+ 84%|████████▍ | 4330/5150 [10:31:17<1:58:27,  8.67s/it] 84%|████████▍ | 4331/5150 [10:31:26<1:58:09,  8.66s/it] 84%|████████▍ | 4332/5150 [10:31:35<1:59:05,  8.74s/it] 84%|████████▍ | 4333/5150 [10:31:43<1:58:32,  8.71s/it] 84%|████████▍ | 4334/5150 [10:31:52<1:58:05,  8.68s/it] 84%|████████▍ | 4335/5150 [10:32:01<1:57:43,  8.67s/it] 84%|████████▍ | 4336/5150 [10:32:10<1:58:38,  8.75s/it] 84%|████████▍ | 4337/5150 [10:32:18<1:58:02,  8.71s/it] 84%|████████▍ | 4338/5150 [10:32:27<1:57:34,  8.69s/it] 84%|████████▍ | 4339/5150 [10:32:35<1:57:11,  8.67s/it] 84%|████████▍ | 4340/5150 [10:32:44<1:56:53,  8.66s/it]                                                        {'loss': '7.95e-05', 'grad_norm': '8.647e-05', 'learning_rate': '1.473e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '146.1', 'tokens/total': 71114752, 'tokens/trainable': 22512184, 'epoch': '4.21'}
+ 84%|████████▍ | 4340/5150 [10:32:44<1:56:53,  8.66s/it] 84%|████████▍ | 4341/5150 [10:32:53<1:57:45,  8.73s/it] 84%|████████▍ | 4342/5150 [10:33:02<1:57:12,  8.70s/it] 84%|████████▍ | 4343/5150 [10:33:10<1:56:46,  8.68s/it] 84%|████████▍ | 4344/5150 [10:33:19<1:56:24,  8.67s/it] 84%|████████▍ | 4345/5150 [10:33:28<1:57:19,  8.74s/it] 84%|████████▍ | 4346/5150 [10:33:36<1:56:42,  8.71s/it] 84%|████████▍ | 4347/5150 [10:33:45<1:56:15,  8.69s/it] 84%|████████▍ | 4348/5150 [10:33:54<1:55:53,  8.67s/it] 84%|████████▍ | 4349/5150 [10:34:02<1:55:36,  8.66s/it] 84%|████████▍ | 4350/5150 [10:34:11<1:56:31,  8.74s/it]                                                        {'loss': '6.246e-06', 'grad_norm': '3.807e-06', 'learning_rate': '1.438e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '150.3', 'tokens/total': 71278592, 'tokens/trainable': 22564428, 'epoch': '4.22'}
+ 84%|████████▍ | 4350/5150 [10:34:11<1:56:31,  8.74s/it] 84%|████████▍ | 4351/5150 [10:34:20<1:55:58,  8.71s/it] 85%|████████▍ | 4352/5150 [10:34:28<1:55:31,  8.69s/it] 85%|████████▍ | 4353/5150 [10:34:37<1:55:11,  8.67s/it] 85%|████████▍ | 4354/5150 [10:34:46<1:56:01,  8.75s/it] 85%|████████▍ | 4355/5150 [10:34:55<1:55:26,  8.71s/it] 85%|████████▍ | 4356/5150 [10:35:03<1:54:59,  8.69s/it] 85%|████████▍ | 4357/5150 [10:35:12<1:54:39,  8.68s/it] 85%|████████▍ | 4358/5150 [10:35:21<1:54:21,  8.66s/it] 85%|████████▍ | 4359/5150 [10:35:30<1:55:20,  8.75s/it] 85%|████████▍ | 4360/5150 [10:35:38<1:54:44,  8.71s/it]                                                        {'loss': '2.863e-06', 'grad_norm': '0.0006783', 'learning_rate': '1.403e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '142', 'tokens/total': 71442432, 'tokens/trainable': 22616432, 'epoch': '4.23'}
+ 85%|████████▍ | 4360/5150 [10:35:38<1:54:44,  8.71s/it] 85%|████████▍ | 4361/5150 [10:35:47<1:54:21,  8.70s/it] 85%|████████▍ | 4362/5150 [10:35:55<1:53:59,  8.68s/it] 85%|████████▍ | 4363/5150 [10:36:04<1:54:53,  8.76s/it] 85%|████████▍ | 4364/5150 [10:36:13<1:54:17,  8.73s/it] 85%|████████▍ | 4365/5150 [10:36:22<1:53:50,  8.70s/it] 85%|████████▍ | 4366/5150 [10:36:30<1:53:27,  8.68s/it] 85%|████████▍ | 4367/5150 [10:36:39<1:53:08,  8.67s/it] 85%|████████▍ | 4368/5150 [10:36:48<1:54:02,  8.75s/it] 85%|████████▍ | 4369/5150 [10:36:57<1:53:28,  8.72s/it] 85%|████████▍ | 4370/5150 [10:37:05<1:53:00,  8.69s/it]                                                        {'loss': '1.681e-06', 'grad_norm': '1.105e-05', 'learning_rate': '1.369e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '146.3', 'tokens/total': 71606272, 'tokens/trainable': 22668736, 'epoch': '4.24'}
+ 85%|████████▍ | 4370/5150 [10:37:05<1:53:00,  8.69s/it] 85%|████████▍ | 4371/5150 [10:37:14<1:52:40,  8.68s/it] 85%|████████▍ | 4372/5150 [10:37:23<1:53:31,  8.76s/it] 85%|████████▍ | 4373/5150 [10:37:31<1:52:56,  8.72s/it] 85%|████████▍ | 4374/5150 [10:37:40<1:52:28,  8.70s/it] 85%|████████▍ | 4375/5150 [10:37:49<1:52:03,  8.68s/it] 85%|████████▍ | 4376/5150 [10:37:57<1:51:44,  8.66s/it] 85%|████████▍ | 4377/5150 [10:38:06<1:52:38,  8.74s/it] 85%|████████▌ | 4378/5150 [10:38:15<1:52:03,  8.71s/it] 85%|████████▌ | 4379/5150 [10:38:24<1:51:36,  8.69s/it] 85%|████████▌ | 4380/5150 [10:38:32<1:51:16,  8.67s/it]                                                        {'loss': '4.428e-06', 'grad_norm': '4.918e-05', 'learning_rate': '1.335e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '145.3', 'tokens/total': 71770112, 'tokens/trainable': 22720758, 'epoch': '4.249'}
+ 85%|████████▌ | 4380/5150 [10:38:32<1:51:16,  8.67s/it] 85%|████████▌ | 4381/5150 [10:38:41<1:52:10,  8.75s/it] 85%|████████▌ | 4382/5150 [10:38:50<1:51:35,  8.72s/it] 85%|████████▌ | 4383/5150 [10:38:58<1:51:08,  8.69s/it] 85%|████████▌ | 4384/5150 [10:39:07<1:50:47,  8.68s/it] 85%|████████▌ | 4385/5150 [10:39:16<1:50:29,  8.67s/it] 85%|████████▌ | 4386/5150 [10:39:25<1:51:18,  8.74s/it] 85%|████████▌ | 4387/5150 [10:39:33<1:50:45,  8.71s/it] 85%|████████▌ | 4388/5150 [10:39:42<1:50:18,  8.69s/it] 85%|████████▌ | 4389/5150 [10:39:50<1:49:56,  8.67s/it] 85%|████████▌ | 4390/5150 [10:39:59<1:50:48,  8.75s/it]                                                        {'loss': '4.741e-06', 'grad_norm': '0.000148', 'learning_rate': '1.301e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '148.9', 'tokens/total': 71933952, 'tokens/trainable': 22772856, 'epoch': '4.259'}
+ 85%|████████▌ | 4390/5150 [10:39:59<1:50:48,  8.75s/it] 85%|████████▌ | 4391/5150 [10:40:08<1:50:13,  8.71s/it] 85%|████████▌ | 4392/5150 [10:40:17<1:49:46,  8.69s/it] 85%|████████▌ | 4393/5150 [10:40:25<1:49:23,  8.67s/it] 85%|████████▌ | 4394/5150 [10:40:34<1:49:07,  8.66s/it] 85%|████████▌ | 4395/5150 [10:40:43<1:50:00,  8.74s/it] 85%|████████▌ | 4396/5150 [10:40:52<1:49:28,  8.71s/it] 85%|████████▌ | 4397/5150 [10:41:00<1:49:02,  8.69s/it] 85%|████████▌ | 4398/5150 [10:41:09<1:48:40,  8.67s/it] 85%|████████▌ | 4399/5150 [10:41:18<1:49:29,  8.75s/it] 85%|████████▌ | 4400/5150 [10:41:26<1:48:54,  8.71s/it]                                                        {'loss': '1.264e-05', 'grad_norm': '6.746e-05', 'learning_rate': '1.268e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '147.1', 'tokens/total': 72097792, 'tokens/trainable': 22824876, 'epoch': '4.269'}
+ 85%|████████▌ | 4400/5150 [10:41:26<1:48:54,  8.71s/it] 85%|████████▌ | 4401/5150 [10:41:35<1:48:27,  8.69s/it] 85%|████████▌ | 4402/5150 [10:41:44<1:48:05,  8.67s/it] 85%|████████▌ | 4403/5150 [10:41:52<1:47:49,  8.66s/it] 86%|████████▌ | 4404/5150 [10:42:01<1:48:39,  8.74s/it] 86%|████████▌ | 4405/5150 [10:42:10<1:48:07,  8.71s/it] 86%|████████▌ | 4406/5150 [10:42:18<1:47:42,  8.69s/it] 86%|████████▌ | 4407/5150 [10:42:27<1:47:24,  8.67s/it] 86%|████████▌ | 4408/5150 [10:42:36<1:48:17,  8.76s/it] 86%|████████▌ | 4409/5150 [10:42:45<1:47:42,  8.72s/it] 86%|████████▌ | 4410/5150 [10:42:53<1:47:13,  8.69s/it]                                                        {'loss': '1.108e-05', 'grad_norm': '0.006986', 'learning_rate': '1.235e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '151.3', 'tokens/total': 72261632, 'tokens/trainable': 22877296, 'epoch': '4.278'}
+ 86%|████████▌ | 4410/5150 [10:42:53<1:47:13,  8.69s/it] 86%|████████▌ | 4411/5150 [10:43:02<1:46:50,  8.67s/it] 86%|████████▌ | 4412/5150 [10:43:11<1:46:31,  8.66s/it] 86%|████████▌ | 4413/5150 [10:43:19<1:47:21,  8.74s/it] 86%|████████▌ | 4414/5150 [10:43:28<1:46:48,  8.71s/it] 86%|████████▌ | 4415/5150 [10:43:37<1:46:23,  8.68s/it] 86%|████████▌ | 4416/5150 [10:43:45<1:46:01,  8.67s/it] 86%|████████▌ | 4417/5150 [10:43:54<1:46:51,  8.75s/it] 86%|████████▌ | 4418/5150 [10:44:03<1:46:16,  8.71s/it] 86%|████████▌ | 4419/5150 [10:44:12<1:45:51,  8.69s/it] 86%|████████▌ | 4420/5150 [10:44:20<1:45:28,  8.67s/it]                                                        {'loss': '3.606e-06', 'grad_norm': '0.0001218', 'learning_rate': '1.203e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '149.1', 'tokens/total': 72425472, 'tokens/trainable': 22928956, 'epoch': '4.288'}
+ 86%|████████▌ | 4420/5150 [10:44:20<1:45:28,  8.67s/it] 86%|████████▌ | 4421/5150 [10:44:29<1:45:13,  8.66s/it] 86%|████████▌ | 4422/5150 [10:44:38<1:46:09,  8.75s/it] 86%|████████▌ | 4423/5150 [10:44:46<1:45:35,  8.71s/it] 86%|████████▌ | 4424/5150 [10:44:55<1:45:10,  8.69s/it] 86%|████████▌ | 4425/5150 [10:45:04<1:44:50,  8.68s/it] 86%|████████▌ | 4426/5150 [10:45:12<1:44:33,  8.66s/it] 86%|████████▌ | 4427/5150 [10:45:21<1:45:24,  8.75s/it] 86%|████████▌ | 4428/5150 [10:45:30<1:44:51,  8.71s/it] 86%|████████▌ | 4429/5150 [10:45:39<1:44:25,  8.69s/it] 86%|████████▌ | 4430/5150 [10:45:47<1:44:05,  8.67s/it]                                                        {'loss': '1.028e-06', 'grad_norm': '1.908e-05', 'learning_rate': '1.171e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '154', 'tokens/total': 72589312, 'tokens/trainable': 22981040, 'epoch': '4.298'}
+ 86%|████████▌ | 4430/5150 [10:45:47<1:44:05,  8.67s/it] 86%|████████▌ | 4431/5150 [10:45:56<1:44:57,  8.76s/it] 86%|████████▌ | 4432/5150 [10:46:05<1:44:22,  8.72s/it] 86%|████████▌ | 4433/5150 [10:46:13<1:43:55,  8.70s/it] 86%|████████▌ | 4434/5150 [10:46:22<1:43:35,  8.68s/it] 86%|████████▌ | 4435/5150 [10:46:31<1:43:17,  8.67s/it] 86%|████████▌ | 4436/5150 [10:46:40<1:44:07,  8.75s/it] 86%|████████▌ | 4437/5150 [10:46:48<1:43:33,  8.72s/it] 86%|████████▌ | 4438/5150 [10:46:57<1:43:08,  8.69s/it] 86%|████████▌ | 4439/5150 [10:47:06<1:42:48,  8.68s/it] 86%|████████▌ | 4440/5150 [10:47:14<1:43:37,  8.76s/it]                                                        {'loss': '7.546e-06', 'grad_norm': '0.000332', 'learning_rate': '1.139e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '140.4', 'tokens/total': 72753152, 'tokens/trainable': 23033200, 'epoch': '4.307'}
+ 86%|████████▌ | 4440/5150 [10:47:14<1:43:37,  8.76s/it] 86%|████████▌ | 4441/5150 [10:47:23<1:43:03,  8.72s/it] 86%|████████▋ | 4442/5150 [10:47:32<1:42:36,  8.70s/it] 86%|████████▋ | 4443/5150 [10:47:40<1:42:16,  8.68s/it] 86%|████████▋ | 4444/5150 [10:47:49<1:41:58,  8.67s/it] 86%|████████▋ | 4445/5150 [10:47:58<1:42:49,  8.75s/it] 86%|████████▋ | 4446/5150 [10:48:07<1:42:16,  8.72s/it] 86%|████████▋ | 4447/5150 [10:48:15<1:41:50,  8.69s/it] 86%|████████▋ | 4448/5150 [10:48:24<1:41:31,  8.68s/it] 86%|████████▋ | 4449/5150 [10:48:33<1:42:20,  8.76s/it] 86%|████████▋ | 4450/5150 [10:48:41<1:41:46,  8.72s/it]                                                        {'loss': '3.128e-06', 'grad_norm': '1.176e-05', 'learning_rate': '1.108e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '156.2', 'tokens/total': 72916992, 'tokens/trainable': 23085076, 'epoch': '4.317'}
+ 86%|████████▋ | 4450/5150 [10:48:41<1:41:46,  8.72s/it] 86%|████████▋ | 4451/5150 [10:48:50<1:41:20,  8.70s/it] 86%|████████▋ | 4452/5150 [10:48:59<1:40:58,  8.68s/it] 86%|████████▋ | 4453/5150 [10:49:07<1:40:41,  8.67s/it] 86%|████████▋ | 4454/5150 [10:49:16<1:41:30,  8.75s/it] 87%|████████▋ | 4455/5150 [10:49:25<1:40:56,  8.71s/it] 87%|████████▋ | 4456/5150 [10:49:34<1:40:32,  8.69s/it] 87%|████████▋ | 4457/5150 [10:49:42<1:40:10,  8.67s/it] 87%|████████▋ | 4458/5150 [10:49:51<1:40:53,  8.75s/it] 87%|████████▋ | 4459/5150 [10:50:00<1:40:20,  8.71s/it] 87%|████████▋ | 4460/5150 [10:50:08<1:39:54,  8.69s/it]                                                        {'loss': '3.58e-06', 'grad_norm': '1.448e-05', 'learning_rate': '1.077e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '147.1', 'tokens/total': 73080832, 'tokens/trainable': 23136644, 'epoch': '4.327'}
+ 87%|████████▋ | 4460/5150 [10:50:08<1:39:54,  8.69s/it] 87%|████████▋ | 4461/5150 [10:50:17<1:39:36,  8.67s/it] 87%|████████▋ | 4462/5150 [10:50:26<1:39:20,  8.66s/it] 87%|████████▋ | 4463/5150 [10:50:35<1:40:14,  8.76s/it] 87%|████████▋ | 4464/5150 [10:50:43<1:39:39,  8.72s/it] 87%|████████▋ | 4465/5150 [10:50:52<1:39:12,  8.69s/it] 87%|████████▋ | 4466/5150 [10:51:01<1:38:51,  8.67s/it] 87%|████████▋ | 4467/5150 [10:51:09<1:39:35,  8.75s/it] 87%|████████▋ | 4468/5150 [10:51:18<1:39:02,  8.71s/it] 87%|████████▋ | 4469/5150 [10:51:27<1:38:36,  8.69s/it] 87%|████████▋ | 4470/5150 [10:51:35<1:38:15,  8.67s/it]                                                        {'loss': '6.862e-06', 'grad_norm': '3.808e-06', 'learning_rate': '1.047e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '153.3', 'tokens/total': 73244672, 'tokens/trainable': 23188374, 'epoch': '4.337'}
+ 87%|████████▋ | 4470/5150 [10:51:35<1:38:15,  8.67s/it] 87%|████████▋ | 4471/5150 [10:51:44<1:37:59,  8.66s/it] 87%|████████▋ | 4472/5150 [10:51:53<1:38:44,  8.74s/it] 87%|████████▋ | 4473/5150 [10:52:02<1:38:13,  8.70s/it] 87%|████████▋ | 4474/5150 [10:52:10<1:37:49,  8.68s/it] 87%|████████▋ | 4475/5150 [10:52:19<1:37:29,  8.67s/it] 87%|████████▋ | 4476/5150 [10:52:27<1:37:13,  8.66s/it] 87%|████████▋ | 4477/5150 [10:52:36<1:37:57,  8.73s/it] 87%|████████▋ | 4478/5150 [10:52:45<1:37:27,  8.70s/it] 87%|████████▋ | 4479/5150 [10:52:54<1:37:05,  8.68s/it] 87%|████████▋ | 4480/5150 [10:53:02<1:36:46,  8.67s/it]                                                        {'loss': '1.883e-05', 'grad_norm': '8.742e-05', 'learning_rate': '1.017e-05', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '139', 'tokens/total': 73408512, 'tokens/trainable': 23239956, 'epoch': '4.346'}
+ 87%|████████▋ | 4480/5150 [10:53:02<1:36:46,  8.67s/it] 87%|████████▋ | 4481/5150 [10:53:11<1:37:30,  8.74s/it] 87%|████████▋ | 4482/5150 [10:53:20<1:36:58,  8.71s/it] 87%|████████▋ | 4483/5150 [10:53:28<1:36:34,  8.69s/it] 87%|████████▋ | 4484/5150 [10:53:37<1:36:14,  8.67s/it] 87%|████████▋ | 4485/5150 [10:53:46<1:35:59,  8.66s/it] 87%|████████▋ | 4486/5150 [10:53:55<1:36:45,  8.74s/it] 87%|████████▋ | 4487/5150 [10:54:03<1:36:14,  8.71s/it] 87%|████████▋ | 4488/5150 [10:54:12<1:35:51,  8.69s/it] 87%|████████▋ | 4489/5150 [10:54:21<1:35:32,  8.67s/it] 87%|████████▋ | 4490/5150 [10:54:29<1:36:14,  8.75s/it]                                                        {'loss': '1.199e-05', 'grad_norm': '5.033e-05', 'learning_rate': '9.87e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '138.7', 'tokens/total': 73572352, 'tokens/trainable': 23292184, 'epoch': '4.356'}
+ 87%|████████▋ | 4490/5150 [10:54:29<1:36:14,  8.75s/it] 87%|████████▋ | 4491/5150 [10:54:38<1:35:44,  8.72s/it] 87%|████████▋ | 4492/5150 [10:54:47<1:35:20,  8.69s/it] 87%|████████▋ | 4493/5150 [10:54:55<1:35:01,  8.68s/it] 87%|████████▋ | 4494/5150 [10:55:04<1:34:44,  8.67s/it] 87%|████████▋ | 4495/5150 [10:55:13<1:35:27,  8.74s/it] 87%|████████▋ | 4496/5150 [10:55:22<1:34:57,  8.71s/it] 87%|████████▋ | 4497/5150 [10:55:30<1:34:33,  8.69s/it] 87%|████████▋ | 4498/5150 [10:55:39<1:34:13,  8.67s/it] 87%|████████▋ | 4499/5150 [10:55:48<1:34:54,  8.75s/it] 87%|████████▋ | 4500/5150 [10:55:56<1:34:22,  8.71s/it]                                                        {'loss': '1.946e-06', 'grad_norm': '2.241e-05', 'learning_rate': '9.578e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '146.8', 'tokens/total': 73736192, 'tokens/trainable': 23344366, 'epoch': '4.366'}
+ 87%|████████▋ | 4500/5150 [10:55:56<1:34:22,  8.71s/it] 87%|████████▋ | 4501/5150 [10:56:05<1:33:58,  8.69s/it] 87%|████████▋ | 4502/5150 [10:56:14<1:33:38,  8.67s/it] 87%|████████▋ | 4503/5150 [10:56:22<1:33:22,  8.66s/it] 87%|████████▋ | 4504/5150 [10:56:31<1:34:04,  8.74s/it] 87%|████████▋ | 4505/5150 [10:56:40<1:33:35,  8.71s/it] 87%|████████▋ | 4506/5150 [10:56:49<1:33:13,  8.69s/it] 88%|████████▊ | 4507/5150 [10:56:57<1:32:54,  8.67s/it] 88%|████████▊ | 4508/5150 [10:57:06<1:33:36,  8.75s/it] 88%|████████▊ | 4509/5150 [10:57:15<1:33:04,  8.71s/it] 88%|████████▊ | 4510/5150 [10:57:23<1:32:39,  8.69s/it]                                                        {'loss': '1.2e-05', 'grad_norm': '1.47e-05', 'learning_rate': '9.291e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '141.8', 'tokens/total': 73900032, 'tokens/trainable': 23396168, 'epoch': '4.375'}
+ 88%|████████▊ | 4510/5150 [10:57:23<1:32:39,  8.69s/it] 88%|████████▊ | 4511/5150 [10:57:32<1:32:21,  8.67s/it] 88%|████████▊ | 4512/5150 [10:57:41<1:32:04,  8.66s/it] 88%|████████▊ | 4513/5150 [10:57:50<1:32:48,  8.74s/it] 88%|████████▊ | 4514/5150 [10:57:58<1:32:18,  8.71s/it] 88%|████████▊ | 4515/5150 [10:58:07<1:31:55,  8.69s/it] 88%|████████▊ | 4516/5150 [10:58:15<1:31:36,  8.67s/it] 88%|████████▊ | 4517/5150 [10:58:24<1:32:21,  8.75s/it] 88%|████████▊ | 4518/5150 [10:58:33<1:31:52,  8.72s/it] 88%|████████▊ | 4519/5150 [10:58:42<1:31:28,  8.70s/it] 88%|████████▊ | 4520/5150 [10:58:50<1:31:07,  8.68s/it]                                                        {'loss': '1.917e-06', 'grad_norm': '6.552e-05', 'learning_rate': '9.007e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '154.3', 'tokens/total': 74063872, 'tokens/trainable': 23447860, 'epoch': '4.385'}
+ 88%|████████▊ | 4520/5150 [10:58:50<1:31:07,  8.68s/it] 88%|████████▊ | 4521/5150 [10:58:59<1:30:51,  8.67s/it] 88%|████████▊ | 4522/5150 [10:59:08<1:31:32,  8.75s/it] 88%|████████▊ | 4523/5150 [10:59:17<1:31:03,  8.71s/it] 88%|████████▊ | 4524/5150 [10:59:25<1:30:38,  8.69s/it] 88%|████████▊ | 4525/5150 [10:59:34<1:30:19,  8.67s/it] 88%|████████▊ | 4526/5150 [10:59:43<1:30:59,  8.75s/it] 88%|████████▊ | 4527/5150 [10:59:51<1:30:28,  8.71s/it] 88%|████████▊ | 4528/5150 [11:00:00<1:30:02,  8.69s/it] 88%|████████▊ | 4529/5150 [11:00:09<1:29:43,  8.67s/it] 88%|████████▊ | 4530/5150 [11:00:17<1:29:27,  8.66s/it]                                                        {'loss': '3.505e-06', 'grad_norm': '0.000932', 'learning_rate': '8.728e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '144', 'tokens/total': 74227712, 'tokens/trainable': 23499490, 'epoch': '4.395'}
+ 88%|████████▊ | 4530/5150 [11:00:17<1:29:27,  8.66s/it] 88%|████████▊ | 4531/5150 [11:00:26<1:30:08,  8.74s/it] 88%|████████▊ | 4532/5150 [11:00:35<1:29:40,  8.71s/it] 88%|████████▊ | 4533/5150 [11:00:43<1:29:16,  8.68s/it] 88%|████████▊ | 4534/5150 [11:00:52<1:28:58,  8.67s/it] 88%|████████▊ | 4535/5150 [11:01:01<1:28:41,  8.65s/it] 88%|████████▊ | 4536/5150 [11:01:10<1:29:23,  8.74s/it] 88%|████████▊ | 4537/5150 [11:01:18<1:28:55,  8.70s/it] 88%|████████▊ | 4538/5150 [11:01:27<1:28:32,  8.68s/it] 88%|████████▊ | 4539/5150 [11:01:35<1:28:14,  8.66s/it] 88%|████████▊ | 4540/5150 [11:01:44<1:28:51,  8.74s/it]                                                        {'loss': '2.349e-06', 'grad_norm': '0.0009811', 'learning_rate': '8.454e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '154.8', 'tokens/total': 74391552, 'tokens/trainable': 23551700, 'epoch': '4.404'}
+ 88%|████████▊ | 4540/5150 [11:01:44<1:28:51,  8.74s/it] 88%|████████▊ | 4541/5150 [11:01:53<1:28:23,  8.71s/it] 88%|████████▊ | 4542/5150 [11:02:02<1:27:59,  8.68s/it] 88%|████████▊ | 4543/5150 [11:02:10<1:27:40,  8.67s/it] 88%|████████▊ | 4544/5150 [11:02:19<1:27:24,  8.65s/it] 88%|████████▊ | 4545/5150 [11:02:28<1:28:06,  8.74s/it] 88%|████████▊ | 4546/5150 [11:02:36<1:27:38,  8.71s/it] 88%|████████▊ | 4547/5150 [11:02:45<1:27:15,  8.68s/it] 88%|████████▊ | 4548/5150 [11:02:54<1:26:57,  8.67s/it] 88%|████████▊ | 4549/5150 [11:03:03<1:27:36,  8.75s/it] 88%|████████▊ | 4550/5150 [11:03:11<1:27:05,  8.71s/it]                                                        {'loss': '5.179e-06', 'grad_norm': '0.0001247', 'learning_rate': '8.183e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '152', 'tokens/total': 74555392, 'tokens/trainable': 23603618, 'epoch': '4.414'}
+ 88%|████████▊ | 4550/5150 [11:03:11<1:27:05,  8.71s/it] 88%|████████▊ | 4551/5150 [11:03:20<1:26:42,  8.69s/it] 88%|████████▊ | 4552/5150 [11:03:29<1:26:23,  8.67s/it] 88%|████████▊ | 4553/5150 [11:03:37<1:26:07,  8.66s/it] 88%|████████▊ | 4554/5150 [11:03:46<1:26:45,  8.73s/it] 88%|████████▊ | 4555/5150 [11:03:55<1:26:18,  8.70s/it] 88%|████████▊ | 4556/5150 [11:04:03<1:25:56,  8.68s/it] 88%|████████▊ | 4557/5150 [11:04:12<1:25:38,  8.66s/it] 89%|████████▊ | 4558/5150 [11:04:21<1:26:16,  8.74s/it] 89%|████████▊ | 4559/5150 [11:04:29<1:25:46,  8.71s/it] 89%|████████▊ | 4560/5150 [11:04:38<1:25:23,  8.68s/it]                                                        {'loss': '2.751e-06', 'grad_norm': '0.0004216', 'learning_rate': '7.916e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '149.8', 'tokens/total': 74719232, 'tokens/trainable': 23655724, 'epoch': '4.424'}
+ 89%|████████▊ | 4560/5150 [11:04:38<1:25:23,  8.68s/it] 89%|████████▊ | 4561/5150 [11:04:47<1:25:05,  8.67s/it] 89%|████████▊ | 4562/5150 [11:04:55<1:24:50,  8.66s/it] 89%|████████▊ | 4563/5150 [11:05:04<1:25:34,  8.75s/it] 89%|████████▊ | 4564/5150 [11:05:13<1:25:04,  8.71s/it] 89%|████████▊ | 4565/5150 [11:05:22<1:24:40,  8.69s/it] 89%|████████▊ | 4566/5150 [11:05:30<1:24:23,  8.67s/it] 89%|████████▊ | 4567/5150 [11:05:39<1:25:00,  8.75s/it] 89%|████████▊ | 4568/5150 [11:05:48<1:24:30,  8.71s/it] 89%|████████▊ | 4569/5150 [11:05:56<1:24:08,  8.69s/it] 89%|████████▊ | 4570/5150 [11:06:05<1:23:48,  8.67s/it]                                                        {'loss': '3.398e-06', 'grad_norm': '4.406e-05', 'learning_rate': '7.654e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '148.7', 'tokens/total': 74883072, 'tokens/trainable': 23707262, 'epoch': '4.434'}
+ 89%|████████▊ | 4570/5150 [11:06:05<1:23:48,  8.67s/it] 89%|████████▉ | 4571/5150 [11:06:14<1:23:32,  8.66s/it] 89%|████████▉ | 4572/5150 [11:06:23<1:24:09,  8.74s/it] 89%|████████▉ | 4573/5150 [11:06:31<1:23:42,  8.70s/it] 89%|████████▉ | 4574/5150 [11:06:40<1:23:20,  8.68s/it] 89%|████████▉ | 4575/5150 [11:06:48<1:23:03,  8.67s/it] 89%|████████▉ | 4576/5150 [11:06:57<1:23:36,  8.74s/it] 89%|████████▉ | 4577/5150 [11:07:06<1:23:08,  8.71s/it] 89%|████████▉ | 4578/5150 [11:07:15<1:22:45,  8.68s/it] 89%|████████▉ | 4579/5150 [11:07:23<1:22:28,  8.67s/it] 89%|████████▉ | 4580/5150 [11:07:32<1:22:14,  8.66s/it]                                                        {'loss': '2.033e-06', 'grad_norm': '0.0001631', 'learning_rate': '7.396e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '152.9', 'tokens/total': 75046912, 'tokens/trainable': 23759208, 'epoch': '4.443'}
+ 89%|████████▉ | 4580/5150 [11:07:32<1:22:14,  8.66s/it] 89%|████████▉ | 4581/5150 [11:07:41<1:22:52,  8.74s/it] 89%|████████▉ | 4582/5150 [11:07:49<1:22:25,  8.71s/it] 89%|████████▉ | 4583/5150 [11:07:58<1:22:03,  8.68s/it] 89%|████████▉ | 4584/5150 [11:08:07<1:21:45,  8.67s/it] 89%|████████▉ | 4585/5150 [11:08:15<1:21:30,  8.66s/it] 89%|████████▉ | 4586/5150 [11:08:24<1:22:09,  8.74s/it] 89%|████████▉ | 4587/5150 [11:08:33<1:21:41,  8.71s/it] 89%|████████▉ | 4588/5150 [11:08:42<1:21:20,  8.68s/it] 89%|████████▉ | 4589/5150 [11:08:50<1:21:02,  8.67s/it] 89%|████████▉ | 4590/5150 [11:08:59<1:21:37,  8.75s/it]                                                        {'loss': '2.452e-05', 'grad_norm': '0.04656', 'learning_rate': '7.143e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '139.3', 'tokens/total': 75210752, 'tokens/trainable': 23811284, 'epoch': '4.453'}
+ 89%|████████▉ | 4590/5150 [11:08:59<1:21:37,  8.75s/it] 89%|████████▉ | 4591/5150 [11:09:08<1:21:09,  8.71s/it] 89%|████████▉ | 4592/5150 [11:09:16<1:20:46,  8.69s/it] 89%|████████▉ | 4593/5150 [11:09:25<1:20:27,  8.67s/it] 89%|████████▉ | 4594/5150 [11:09:34<1:20:14,  8.66s/it] 89%|████████▉ | 4595/5150 [11:09:43<1:20:48,  8.74s/it] 89%|████████▉ | 4596/5150 [11:09:51<1:20:21,  8.70s/it] 89%|████████▉ | 4597/5150 [11:10:00<1:20:02,  8.68s/it] 89%|████████▉ | 4598/5150 [11:10:08<1:19:45,  8.67s/it] 89%|████████▉ | 4599/5150 [11:10:17<1:20:16,  8.74s/it] 89%|████████▉ | 4600/5150 [11:10:26<1:19:49,  8.71s/it]                                                        {'loss': '2.399e-06', 'grad_norm': '0.001245', 'learning_rate': '6.893e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '141.3', 'tokens/total': 75374592, 'tokens/trainable': 23862932, 'epoch': '4.463'}
+ 89%|████████▉ | 4600/5150 [11:10:26<1:19:49,  8.71s/it] 89%|████████▉ | 4601/5150 [11:10:35<1:19:28,  8.69s/it] 89%|████████▉ | 4602/5150 [11:10:43<1:19:10,  8.67s/it] 89%|████████▉ | 4603/5150 [11:10:52<1:18:54,  8.66s/it] 89%|████████▉ | 4604/5150 [11:11:01<1:19:30,  8.74s/it] 89%|████████▉ | 4605/5150 [11:11:09<1:19:03,  8.70s/it] 89%|████████▉ | 4606/5150 [11:11:18<1:18:42,  8.68s/it] 89%|████████▉ | 4607/5150 [11:11:27<1:18:25,  8.67s/it] 89%|████████▉ | 4608/5150 [11:11:36<1:18:58,  8.74s/it] 89%|████████▉ | 4609/5150 [11:11:44<1:18:30,  8.71s/it] 90%|████████▉ | 4610/5150 [11:11:53<1:18:09,  8.68s/it]                                                        {'loss': '2.45e-06', 'grad_norm': '0.000761', 'learning_rate': '6.648e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '145.2', 'tokens/total': 75538432, 'tokens/trainable': 23914472, 'epoch': '4.472'}
+ 90%|████████▉ | 4610/5150 [11:11:53<1:18:09,  8.68s/it] 90%|████████▉ | 4611/5150 [11:12:02<1:17:52,  8.67s/it] 90%|████████▉ | 4612/5150 [11:12:10<1:17:37,  8.66s/it] 90%|████████▉ | 4613/5150 [11:12:19<1:18:10,  8.74s/it] 90%|████████▉ | 4614/5150 [11:12:28<1:17:45,  8.70s/it] 90%|████████▉ | 4615/5150 [11:12:36<1:17:24,  8.68s/it] 90%|████████▉ | 4616/5150 [11:12:45<1:17:08,  8.67s/it] 90%|████████▉ | 4617/5150 [11:12:54<1:17:41,  8.74s/it] 90%|████████▉ | 4618/5150 [11:13:02<1:17:13,  8.71s/it] 90%|████████▉ | 4619/5150 [11:13:11<1:16:52,  8.69s/it] 90%|████████▉ | 4620/5150 [11:13:20<1:16:35,  8.67s/it]                                                        {'loss': '6.181e-06', 'grad_norm': '0.005141', 'learning_rate': '6.407e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '135.7', 'tokens/total': 75702272, 'tokens/trainable': 23966700, 'epoch': '4.482'}
+ 90%|████████▉ | 4620/5150 [11:13:20<1:16:35,  8.67s/it] 90%|████████▉ | 4621/5150 [11:13:28<1:16:23,  8.66s/it] 90%|████████▉ | 4622/5150 [11:13:37<1:17:01,  8.75s/it] 90%|████████▉ | 4623/5150 [11:13:46<1:16:33,  8.72s/it] 90%|████████▉ | 4624/5150 [11:13:55<1:16:14,  8.70s/it] 90%|████████▉ | 4625/5150 [11:14:03<1:15:55,  8.68s/it] 90%|████████▉ | 4626/5150 [11:14:12<1:16:28,  8.76s/it] 90%|████████▉ | 4627/5150 [11:14:21<1:16:00,  8.72s/it] 90%|████████▉ | 4628/5150 [11:14:29<1:15:38,  8.69s/it] 90%|████████▉ | 4629/5150 [11:14:38<1:15:20,  8.68s/it] 90%|████████▉ | 4630/5150 [11:14:47<1:15:06,  8.67s/it]                                                        {'loss': '4.36e-05', 'grad_norm': '0.0001013', 'learning_rate': '6.171e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'tokens/train_per_sec_per_gpu': '149.6', 'tokens/total': 75866112, 'tokens/trainable': 24018826, 'epoch': '4.492'}
+ 90%|████████▉ | 4630/5150 [11:14:47<1:15:06,  8.67s/it] 90%|████████▉ | 4631/5150 [11:14:56<1:15:42,  8.75s/it] 90%|████████▉ | 4632/5150 [11:15:04<1:15:15,  8.72s/it] 90%|████████▉ | 4633/5150 [11:15:13<1:14:53,  8.69s/it] 90%|████████▉ | 4634/5150 [11:15:22<1:14:35,  8.67s/it] 90%|█████████ | 4635/5150 [11:15:31<1:15:06,  8.75s/it][2026-03-05 14:48:11,208] [INFO] [axolotl.core.trainers.base.evaluate:400] [PID:1482537] Running evaluation step...
+[2026-03-05 14:48:12,305] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.5469400882720947
+[2026-03-05 14:48:12,870] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.5644888877868652
+[2026-03-05 14:48:13,439] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.5686321258544922
+[2026-03-05 14:48:14,019] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.5801558494567871
+[2026-03-05 14:48:14,020] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:1482537] gather_len_batches: [17]
+
+  0%|          | 0/17 [00:00<?, ?it/s][A
+ 12%|█▏        | 2/17 [00:00<00:04,  3.25it/s][A
+ 18%|█▊        | 3/17 [00:01<00:06,  2.29it/s][A
+ 24%|██▎       | 4/17 [00:01<00:06,  1.98it/s][A
+ 29%|██▉       | 5/17 [00:02<00:07,  1.55it/s][A
+ 35%|███▌      | 6/17 [00:03<00:06,  1.58it/s][A
+ 41%|████      | 7/17 [00:03<00:06,  1.59it/s][A
+ 47%|████▋     | 8/17 [00:04<00:05,  1.60it/s][A
+ 53%|█████▎    | 9/17 [00:05<00:05,  1.57it/s][A
+ 59%|█████▉    | 10/17 [00:05<00:04,  1.58it/s][A
+ 65%|██████▍   | 11/17 [00:06<00:03,  1.59it/s][A
+ 71%|███████   | 12/17 [00:07<00:03,  1.60it/s][A
+ 76%|███████▋  | 13/17 [00:07<00:02,  1.57it/s][A
+ 82%|████████▏ | 14/17 [00:08<00:01,  1.59it/s][A
+ 88%|████████▊ | 15/17 [00:09<00:01,  1.60it/s][A
+ 94%|█████████▍| 16/17 [00:09<00:00,  1.60it/s][ATraceback (most recent call last):
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 300, in _run_finalizers
+    finalizer()
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 224, in __call__
+    res = self._callback(*self._args, **self._kwargs)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 133, in _remove_temp_dir
+    rmtree(tempdir)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 725, in rmtree
+    _rmtree_safe_fd(fd, path, onerror)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 681, in _rmtree_safe_fd
+    onerror(os.unlink, fullname, sys.exc_info())
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 679, in _rmtree_safe_fd
+    os.unlink(entry.name, dir_fd=topfd)
+OSError: [Errno 16] Device or resource busy: '.nfs0000000000086e9600006117'
+
+100%|██████████| 17/17 [00:10<00:00,  1.51it/s][A                                                        
+                                               [A{'eval_loss': '2.024e-05', 'eval_runtime': '11.85', 'eval_samples_per_second': '16.88', 'eval_steps_per_second': '8.438', 'eval_ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '19.57', 'epoch': '4.497', 'tokens/train_per_sec_per_gpu': '139.2'}
+ 90%|█████████ | 4635/5150 [11:15:45<1:15:06,  8.75s/it]
+100%|██████████| 17/17 [00:10<00:00,  1.51it/s][A
+                                               [A 90%|█████████ | 4636/5150 [11:15:54<1:52:32, 13.14s/it] 90%|█████████ | 4637/5150 [11:16:03<1:40:46, 11.79s/it] 90%|█████████ | 4638/5150 [11:16:11<1:32:28, 10.84s/it] 90%|█████████ | 4639/5150 [11:16:20<1:26:38, 10.17s/it] 90%|█████████ | 4640/5150 [11:16:29<1:23:22,  9.81s/it]                                                        {'loss': '1.101e-06', 'grad_norm': '8.991e-05', 'learning_rate': '5.938e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '145.1', 'tokens/total': 76029952, 'tokens/trainable': 24070828, 'epoch': '4.501'}
+ 90%|█████████ | 4640/5150 [11:16:29<1:23:22,  9.81s/it] 90%|█████████ | 4641/5150 [11:16:37<1:20:12,  9.46s/it] 90%|█████████ | 4642/5150 [11:16:46<1:17:56,  9.21s/it] 90%|█████████ | 4643/5150 [11:16:55<1:16:18,  9.03s/it] 90%|█████████ | 4644/5150 [11:17:03<1:15:08,  8.91s/it] 90%|█████████ | 4645/5150 [11:17:12<1:15:03,  8.92s/it] 90%|█████████ | 4646/5150 [11:17:21<1:14:11,  8.83s/it] 90%|█████████ | 4647/5150 [11:17:29<1:13:32,  8.77s/it] 90%|█████████ | 4648/5150 [11:17:38<1:13:02,  8.73s/it] 90%|█████████ | 4649/5150 [11:17:47<1:13:21,  8.79s/it] 90%|█████████ | 4650/5150 [11:17:56<1:12:48,  8.74s/it]                                                        {'loss': '3.009e-06', 'grad_norm': '3.371e-05', 'learning_rate': '5.71e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '142.1', 'tokens/total': 76193792, 'tokens/trainable': 24123252, 'epoch': '4.511'}
+ 90%|█████████ | 4650/5150 [11:17:56<1:12:48,  8.74s/it] 90%|█████████ | 4651/5150 [11:18:04<1:12:23,  8.70s/it] 90%|█████████ | 4652/5150 [11:18:13<1:12:03,  8.68s/it] 90%|█████████ | 4653/5150 [11:18:22<1:11:45,  8.66s/it] 90%|█████████ | 4654/5150 [11:18:30<1:12:15,  8.74s/it] 90%|█████████ | 4655/5150 [11:18:39<1:11:49,  8.71s/it] 90%|█████████ | 4656/5150 [11:18:48<1:11:29,  8.68s/it] 90%|█████████ | 4657/5150 [11:18:56<1:11:12,  8.67s/it] 90%|█████████ | 4658/5150 [11:19:05<1:11:40,  8.74s/it] 90%|█████████ | 4659/5150 [11:19:14<1:11:15,  8.71s/it] 90%|█████████ | 4660/5150 [11:19:22<1:10:54,  8.68s/it]                                                        {'loss': '4.129e-06', 'grad_norm': '3.987e-05', 'learning_rate': '5.487e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '144.9', 'tokens/total': 76357632, 'tokens/trainable': 24174500, 'epoch': '4.521'}
+ 90%|█████████ | 4660/5150 [11:19:22<1:10:54,  8.68s/it] 91%|█████████ | 4661/5150 [11:19:31<1:10:39,  8.67s/it] 91%|█████████ | 4662/5150 [11:19:40<1:10:24,  8.66s/it] 91%|█████████ | 4663/5150 [11:19:49<1:10:54,  8.74s/it] 91%|█████████ | 4664/5150 [11:19:57<1:10:30,  8.70s/it] 91%|█████████ | 4665/5150 [11:20:06<1:10:10,  8.68s/it] 91%|█████████ | 4666/5150 [11:20:15<1:09:53,  8.66s/it] 91%|█████████ | 4667/5150 [11:20:23<1:10:23,  8.74s/it] 91%|█████████ | 4668/5150 [11:20:32<1:09:57,  8.71s/it] 91%|█████████ | 4669/5150 [11:20:41<1:09:37,  8.69s/it] 91%|█████████ | 4670/5150 [11:20:49<1:09:20,  8.67s/it]                                                        {'loss': '1.16e-06', 'grad_norm': '8.762e-06', 'learning_rate': '5.268e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '161.9', 'tokens/total': 76521472, 'tokens/trainable': 24226392, 'epoch': '4.531'}
+ 91%|█████████ | 4670/5150 [11:20:49<1:09:20,  8.67s/it] 91%|█████████ | 4671/5150 [11:20:58<1:09:06,  8.66s/it] 91%|█████████ | 4672/5150 [11:21:07<1:09:37,  8.74s/it] 91%|█████████ | 4673/5150 [11:21:16<1:09:12,  8.71s/it] 91%|█████████ | 4674/5150 [11:21:24<1:08:52,  8.68s/it] 91%|█████████ | 4675/5150 [11:21:33<1:08:36,  8.67s/it] 91%|█████████ | 4676/5150 [11:21:41<1:08:22,  8.65s/it] 91%|█████████ | 4677/5150 [11:21:50<1:08:52,  8.74s/it] 91%|█████████ | 4678/5150 [11:21:59<1:08:27,  8.70s/it] 91%|█████████ | 4679/5150 [11:22:08<1:08:09,  8.68s/it] 91%|█████████ | 4680/5150 [11:22:16<1:07:52,  8.67s/it]                                                        {'loss': '7.664e-07', 'grad_norm': '4.129e-06', 'learning_rate': '5.053e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '143.9', 'tokens/total': 76685312, 'tokens/trainable': 24278628, 'epoch': '4.54'}
+ 91%|█████████ | 4680/5150 [11:22:16<1:07:52,  8.67s/it] 91%|█████████ | 4681/5150 [11:22:25<1:08:20,  8.74s/it] 91%|█████████ | 4682/5150 [11:22:34<1:07:55,  8.71s/it] 91%|█████████ | 4683/5150 [11:22:42<1:07:36,  8.69s/it] 91%|█████████ | 4684/5150 [11:22:51<1:07:20,  8.67s/it] 91%|█████████ | 4685/5150 [11:23:00<1:07:05,  8.66s/it] 91%|█████████ | 4686/5150 [11:23:09<1:07:33,  8.74s/it] 91%|█████████ | 4687/5150 [11:23:17<1:07:10,  8.70s/it] 91%|█████████ | 4688/5150 [11:23:26<1:06:50,  8.68s/it] 91%|█████████ | 4689/5150 [11:23:35<1:06:34,  8.67s/it] 91%|█████████ | 4690/5150 [11:23:43<1:07:02,  8.75s/it]                                                        {'loss': '4.726e-06', 'grad_norm': '0.0002832', 'learning_rate': '4.842e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '157.3', 'tokens/total': 76849152, 'tokens/trainable': 24330940, 'epoch': '4.55'}
+ 91%|█████████ | 4690/5150 [11:23:43<1:07:02,  8.75s/it] 91%|█████████ | 4691/5150 [11:23:52<1:06:38,  8.71s/it] 91%|█████████ | 4692/5150 [11:24:01<1:06:18,  8.69s/it] 91%|█████████ | 4693/5150 [11:24:09<1:06:01,  8.67s/it] 91%|█████████ | 4694/5150 [11:24:18<1:05:47,  8.66s/it] 91%|█████████ | 4695/5150 [11:24:27<1:06:15,  8.74s/it] 91%|█████████ | 4696/5150 [11:24:36<1:05:51,  8.70s/it] 91%|█████████ | 4697/5150 [11:24:44<1:05:32,  8.68s/it] 91%|█████████ | 4698/5150 [11:24:53<1:05:17,  8.67s/it] 91%|█████████ | 4699/5150 [11:25:02<1:05:43,  8.74s/it] 91%|█████████▏| 4700/5150 [11:25:10<1:05:19,  8.71s/it]                                                        {'loss': '4.114e-06', 'grad_norm': '0.0006175', 'learning_rate': '4.636e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '142', 'tokens/total': 77012992, 'tokens/trainable': 24382204, 'epoch': '4.56'}
+ 91%|█████████▏| 4700/5150 [11:25:10<1:05:19,  8.71s/it] 91%|█████████▏| 4701/5150 [11:25:19<1:05:01,  8.69s/it] 91%|█████████▏| 4702/5150 [11:25:28<1:04:45,  8.67s/it] 91%|█████████▏| 4703/5150 [11:25:36<1:04:32,  8.66s/it] 91%|█████████▏| 4704/5150 [11:25:45<1:04:58,  8.74s/it] 91%|█████████▏| 4705/5150 [11:25:54<1:04:35,  8.71s/it] 91%|█████████▏| 4706/5150 [11:26:02<1:04:16,  8.69s/it] 91%|█████████▏| 4707/5150 [11:26:11<1:04:01,  8.67s/it] 91%|█████████▏| 4708/5150 [11:26:20<1:04:28,  8.75s/it] 91%|█████████▏| 4709/5150 [11:26:29<1:04:04,  8.72s/it] 91%|█████████▏| 4710/5150 [11:26:37<1:03:44,  8.69s/it]                                                        {'loss': '3.385e-05', 'grad_norm': '3.578e-05', 'learning_rate': '4.434e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '141.5', 'tokens/total': 77176832, 'tokens/trainable': 24434300, 'epoch': '4.569'}
+ 91%|█████████▏| 4710/5150 [11:26:37<1:03:44,  8.69s/it] 91%|█████████▏| 4711/5150 [11:26:46<1:03:28,  8.68s/it] 91%|█████████▏| 4712/5150 [11:26:55<1:03:14,  8.66s/it] 92%|█████████▏| 4713/5150 [11:27:04<1:03:45,  8.75s/it] 92%|█████████▏| 4714/5150 [11:27:15<1:10:09,  9.65s/it] 92%|█████████▏| 4715/5150 [11:27:24<1:07:49,  9.36s/it] 92%|█████████▏| 4716/5150 [11:27:33<1:06:07,  9.14s/it] 92%|█████████▏| 4717/5150 [11:27:42<1:05:32,  9.08s/it] 92%|█████████▏| 4718/5150 [11:27:53<1:10:39,  9.81s/it] 92%|█████████▏| 4719/5150 [11:28:02<1:08:47,  9.58s/it] 92%|█████████▏| 4720/5150 [11:28:13<1:11:41, 10.00s/it]                                                        {'loss': '5.188e-06', 'grad_norm': '0.000129', 'learning_rate': '4.237e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '116.3', 'tokens/total': 77340672, 'tokens/trainable': 24486130, 'epoch': '4.579'}
+ 92%|█████████▏| 4720/5150 [11:28:13<1:11:41, 10.00s/it] 92%|█████████▏| 4721/5150 [11:28:22<1:08:37,  9.60s/it] 92%|█████████▏| 4722/5150 [11:28:31<1:07:01,  9.40s/it] 92%|█████████▏| 4723/5150 [11:28:39<1:05:13,  9.16s/it] 92%|█████████▏| 4724/5150 [11:28:48<1:03:54,  9.00s/it] 92%|█████████▏| 4725/5150 [11:28:56<1:02:56,  8.89s/it] 92%|█████████▏| 4726/5150 [11:29:05<1:02:51,  8.89s/it] 92%|█████████▏| 4727/5150 [11:29:14<1:02:06,  8.81s/it] 92%|█████████▏| 4728/5150 [11:29:23<1:01:33,  8.75s/it] 92%|█████████▏| 4729/5150 [11:29:31<1:01:08,  8.71s/it] 92%|█████████▏| 4730/5150 [11:29:40<1:00:47,  8.69s/it]                                                        {'loss': '7.841e-07', 'grad_norm': '5.621e-06', 'learning_rate': '4.044e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '148', 'tokens/total': 77504512, 'tokens/trainable': 24537752, 'epoch': '4.589'}
+ 92%|█████████▏| 4730/5150 [11:29:40<1:00:47,  8.69s/it] 92%|█████████▏| 4731/5150 [11:29:49<1:01:09,  8.76s/it] 92%|█████████▏| 4732/5150 [11:29:57<1:00:43,  8.72s/it] 92%|█████████▏| 4733/5150 [11:30:06<1:00:23,  8.69s/it] 92%|█████████▏| 4734/5150 [11:30:15<1:00:06,  8.67s/it] 92%|█████████▏| 4735/5150 [11:30:23<59:51,  8.65s/it]   92%|█████████▏| 4736/5150 [11:30:32<1:00:14,  8.73s/it] 92%|█████████▏| 4737/5150 [11:30:41<59:52,  8.70s/it]   92%|█████████▏| 4738/5150 [11:30:49<59:34,  8.68s/it] 92%|█████████▏| 4739/5150 [11:30:58<59:19,  8.66s/it] 92%|█████████▏| 4740/5150 [11:31:07<59:43,  8.74s/it]                                                      {'loss': '3.591e-06', 'grad_norm': '8.67e-05', 'learning_rate': '3.855e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '146.7', 'tokens/total': 77668352, 'tokens/trainable': 24589684, 'epoch': '4.598'}
+ 92%|█████████▏| 4740/5150 [11:31:07<59:43,  8.74s/it] 92%|█████████▏| 4741/5150 [11:31:16<59:22,  8.71s/it] 92%|█████████▏| 4742/5150 [11:31:24<59:02,  8.68s/it] 92%|█████████▏| 4743/5150 [11:31:33<58:46,  8.67s/it] 92%|█████████▏| 4744/5150 [11:31:42<58:33,  8.65s/it] 92%|█████████▏| 4745/5150 [11:31:50<58:58,  8.74s/it] 92%|█████████▏| 4746/5150 [11:31:59<58:36,  8.70s/it] 92%|█████████▏| 4747/5150 [11:32:08<58:18,  8.68s/it] 92%|█████████▏| 4748/5150 [11:32:16<58:02,  8.66s/it] 92%|█████████▏| 4749/5150 [11:32:25<58:25,  8.74s/it] 92%|█████████▏| 4750/5150 [11:32:34<58:01,  8.70s/it]                                                      {'loss': '7.348e-05', 'grad_norm': '1.048e-05', 'learning_rate': '3.671e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '146.2', 'tokens/total': 77832192, 'tokens/trainable': 24641704, 'epoch': '4.608'}
+ 92%|█████████▏| 4750/5150 [11:32:34<58:01,  8.70s/it] 92%|█████████▏| 4751/5150 [11:32:42<57:43,  8.68s/it] 92%|█████████▏| 4752/5150 [11:32:51<57:28,  8.66s/it] 92%|█████████▏| 4753/5150 [11:33:00<57:14,  8.65s/it] 92%|█████████▏| 4754/5150 [11:33:09<57:37,  8.73s/it] 92%|█████████▏| 4755/5150 [11:33:17<57:16,  8.70s/it] 92%|█████████▏| 4756/5150 [11:33:26<56:58,  8.68s/it] 92%|█████████▏| 4757/5150 [11:33:35<56:43,  8.66s/it] 92%|█████████▏| 4758/5150 [11:33:43<57:06,  8.74s/it] 92%|█████████▏| 4759/5150 [11:33:52<56:43,  8.71s/it] 92%|█████████▏| 4760/5150 [11:34:01<56:25,  8.68s/it]                                                      {'loss': '4.648e-06', 'grad_norm': '1.22e-05', 'learning_rate': '3.491e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '166.1', 'tokens/total': 77996032, 'tokens/trainable': 24693936, 'epoch': '4.618'}
+ 92%|█████████▏| 4760/5150 [11:34:01<56:25,  8.68s/it] 92%|█████████▏| 4761/5150 [11:34:09<56:11,  8.67s/it] 92%|█████████▏| 4762/5150 [11:34:18<55:57,  8.65s/it] 92%|█████████▏| 4763/5150 [11:34:27<56:21,  8.74s/it] 93%|█████████▎| 4764/5150 [11:34:36<55:59,  8.70s/it] 93%|█████████▎| 4765/5150 [11:34:44<55:41,  8.68s/it] 93%|█████████▎| 4766/5150 [11:34:53<55:26,  8.66s/it] 93%|█████████▎| 4767/5150 [11:35:02<55:48,  8.74s/it] 93%|█████████▎| 4768/5150 [11:35:10<55:25,  8.71s/it] 93%|█████████▎| 4769/5150 [11:35:19<55:06,  8.68s/it] 93%|█████████▎| 4770/5150 [11:35:28<54:52,  8.66s/it]                                                      {'loss': '6.215e-06', 'grad_norm': '0.005091', 'learning_rate': '3.316e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '138.7', 'tokens/total': 78159872, 'tokens/trainable': 24745906, 'epoch': '4.628'}
+ 93%|█████████▎| 4770/5150 [11:35:28<54:52,  8.66s/it] 93%|█████████▎| 4771/5150 [11:35:36<54:39,  8.65s/it] 93%|█████████▎| 4772/5150 [11:35:45<55:00,  8.73s/it] 93%|█████████▎| 4773/5150 [11:35:54<54:39,  8.70s/it] 93%|█████████▎| 4774/5150 [11:36:02<54:22,  8.68s/it] 93%|█████████▎| 4775/5150 [11:36:11<54:08,  8.66s/it] 93%|█████████▎| 4776/5150 [11:36:20<54:28,  8.74s/it] 93%|█████████▎| 4777/5150 [11:36:29<54:07,  8.71s/it] 93%|█████████▎| 4778/5150 [11:36:37<53:49,  8.68s/it] 93%|█████████▎| 4779/5150 [11:36:46<53:34,  8.67s/it] 93%|█████████▎| 4780/5150 [11:36:54<53:21,  8.65s/it]                                                      {'loss': '1.391e-05', 'grad_norm': '0.0001263', 'learning_rate': '3.145e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '145.1', 'tokens/total': 78323712, 'tokens/trainable': 24797748, 'epoch': '4.637'}
+ 93%|█████████▎| 4780/5150 [11:36:54<53:21,  8.65s/it] 93%|█████████▎| 4781/5150 [11:37:03<53:44,  8.74s/it] 93%|█████████▎| 4782/5150 [11:37:12<53:22,  8.70s/it] 93%|█████████▎| 4783/5150 [11:37:21<53:06,  8.68s/it] 93%|█████████▎| 4784/5150 [11:37:29<52:51,  8.67s/it] 93%|█████████▎| 4785/5150 [11:37:38<53:10,  8.74s/it] 93%|█████████▎| 4786/5150 [11:37:47<52:49,  8.71s/it] 93%|█████████▎| 4787/5150 [11:37:55<52:31,  8.68s/it] 93%|█████████▎| 4788/5150 [11:38:04<52:16,  8.66s/it] 93%|█████████▎| 4789/5150 [11:38:13<52:03,  8.65s/it] 93%|█████████▎| 4790/5150 [11:38:22<52:22,  8.73s/it]                                                      {'loss': '1.946e-05', 'grad_norm': '3.687e-05', 'learning_rate': '2.979e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '139.5', 'tokens/total': 78487552, 'tokens/trainable': 24850200, 'epoch': '4.647'}
+ 93%|█████████▎| 4790/5150 [11:38:22<52:22,  8.73s/it] 93%|█████████▎| 4791/5150 [11:38:30<52:03,  8.70s/it] 93%|█████████▎| 4792/5150 [11:38:39<51:46,  8.68s/it] 93%|█████████▎| 4793/5150 [11:38:47<51:32,  8.66s/it] 93%|█████████▎| 4794/5150 [11:38:56<51:52,  8.74s/it] 93%|█████████▎| 4795/5150 [11:39:05<51:31,  8.71s/it] 93%|█████████▎| 4796/5150 [11:39:14<51:13,  8.68s/it] 93%|█████████▎| 4797/5150 [11:39:22<50:58,  8.67s/it] 93%|█████████▎| 4798/5150 [11:39:31<50:46,  8.65s/it] 93%|█████████▎| 4799/5150 [11:39:40<51:06,  8.74s/it] 93%|█████████▎| 4800/5150 [11:39:48<50:45,  8.70s/it]                                                      {'loss': '1.083e-05', 'grad_norm': '6.175e-05', 'learning_rate': '2.817e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '151.1', 'tokens/total': 78651392, 'tokens/trainable': 24902110, 'epoch': '4.657'}
+ 93%|█████████▎| 4800/5150 [11:39:48<50:45,  8.70s/it] 93%|█████████▎| 4801/5150 [11:39:57<50:28,  8.68s/it] 93%|█████████▎| 4802/5150 [11:40:06<50:15,  8.66s/it] 93%|█████████▎| 4803/5150 [11:40:15<50:33,  8.74s/it] 93%|█████████▎| 4804/5150 [11:40:23<50:12,  8.71s/it] 93%|█████████▎| 4805/5150 [11:40:32<49:55,  8.68s/it] 93%|█████████▎| 4806/5150 [11:40:40<49:40,  8.67s/it] 93%|█████████▎| 4807/5150 [11:40:49<49:27,  8.65s/it] 93%|█████████▎| 4808/5150 [11:40:58<49:46,  8.73s/it] 93%|█████████▎| 4809/5150 [11:41:07<49:27,  8.70s/it] 93%|█████████▎| 4810/5150 [11:41:15<49:10,  8.68s/it]                                                      {'loss': '3.815e-06', 'grad_norm': '0.003251', 'learning_rate': '2.659e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '147.4', 'tokens/total': 78815232, 'tokens/trainable': 24954664, 'epoch': '4.666'}
+ 93%|█████████▎| 4810/5150 [11:41:15<49:10,  8.68s/it] 93%|█████████▎| 4811/5150 [11:41:24<48:57,  8.66s/it] 93%|█████████▎| 4812/5150 [11:41:33<48:45,  8.66s/it] 93%|█████████▎| 4813/5150 [11:41:41<49:06,  8.74s/it] 93%|█████████▎| 4814/5150 [11:41:50<48:47,  8.71s/it] 93%|█████████▎| 4815/5150 [11:41:59<48:31,  8.69s/it] 94%|█████████▎| 4816/5150 [11:42:07<48:17,  8.68s/it] 94%|█████████▎| 4817/5150 [11:42:16<48:36,  8.76s/it] 94%|█████████▎| 4818/5150 [11:42:25<48:15,  8.72s/it] 94%|█████████▎| 4819/5150 [11:42:34<47:57,  8.69s/it] 94%|█████████▎| 4820/5150 [11:42:42<47:42,  8.67s/it]                                                      {'loss': '1.658e-06', 'grad_norm': '0.0001498', 'learning_rate': '2.506e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '147.7', 'tokens/total': 78979072, 'tokens/trainable': 25006626, 'epoch': '4.676'}
+ 94%|█████████▎| 4820/5150 [11:42:42<47:42,  8.67s/it] 94%|█████████▎| 4821/5150 [11:42:51<47:29,  8.66s/it] 94%|█████████▎| 4822/5150 [11:43:00<47:46,  8.74s/it] 94%|█████████▎| 4823/5150 [11:43:08<47:26,  8.71s/it] 94%|█████████▎| 4824/5150 [11:43:17<47:09,  8.68s/it] 94%|█████████▎| 4825/5150 [11:43:26<46:55,  8.66s/it] 94%|█████████▎| 4826/5150 [11:43:35<47:12,  8.74s/it] 94%|█████████▎| 4827/5150 [11:43:43<46:52,  8.71s/it] 94%|█████████▎| 4828/5150 [11:43:52<46:35,  8.68s/it] 94%|█████████▍| 4829/5150 [11:44:00<46:21,  8.66s/it] 94%|█████████▍| 4830/5150 [11:44:09<46:08,  8.65s/it]                                                      {'loss': '1.28e-05', 'grad_norm': '1.122e-05', 'learning_rate': '2.358e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '154.6', 'tokens/total': 79142912, 'tokens/trainable': 25058284, 'epoch': '4.686'}
+ 94%|█████████▍| 4830/5150 [11:44:09<46:08,  8.65s/it] 94%|█████████▍| 4831/5150 [11:44:18<46:24,  8.73s/it] 94%|█████████▍| 4832/5150 [11:44:27<46:05,  8.70s/it] 94%|█████████▍| 4833/5150 [11:44:35<45:50,  8.68s/it] 94%|█████████▍| 4834/5150 [11:44:44<45:36,  8.66s/it] 94%|█████████▍| 4835/5150 [11:44:53<45:53,  8.74s/it] 94%|█████████▍| 4836/5150 [11:45:01<45:33,  8.71s/it] 94%|█████████▍| 4837/5150 [11:45:10<45:17,  8.68s/it] 94%|█████████▍| 4838/5150 [11:45:19<45:03,  8.66s/it] 94%|█████████▍| 4839/5150 [11:45:27<44:50,  8.65s/it] 94%|█████████▍| 4840/5150 [11:45:36<45:06,  8.73s/it]                                                      {'loss': '1.001e-06', 'grad_norm': '9.8e-05', 'learning_rate': '2.214e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '140.7', 'tokens/total': 79306752, 'tokens/trainable': 25109388, 'epoch': '4.695'}
+ 94%|█████████▍| 4840/5150 [11:45:36<45:06,  8.73s/it] 94%|█████████▍| 4841/5150 [11:45:45<44:48,  8.70s/it] 94%|█████████▍| 4842/5150 [11:45:53<44:32,  8.68s/it] 94%|█████████▍| 4843/5150 [11:46:02<44:18,  8.66s/it] 94%|█████████▍| 4844/5150 [11:46:11<44:32,  8.73s/it] 94%|█████████▍| 4845/5150 [11:46:20<44:13,  8.70s/it] 94%|█████████▍| 4846/5150 [11:46:28<43:58,  8.68s/it] 94%|█████████▍| 4847/5150 [11:46:37<43:44,  8.66s/it] 94%|█████████▍| 4848/5150 [11:46:45<43:32,  8.65s/it] 94%|█████████▍| 4849/5150 [11:46:54<43:48,  8.73s/it] 94%|█████████▍| 4850/5150 [11:47:03<43:30,  8.70s/it]                                                      {'loss': '1.638e-06', 'grad_norm': '6.064e-06', 'learning_rate': '2.074e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '153.5', 'tokens/total': 79470592, 'tokens/trainable': 25161276, 'epoch': '4.705'}
+ 94%|█████████▍| 4850/5150 [11:47:03<43:30,  8.70s/it] 94%|█████████▍| 4851/5150 [11:47:12<43:17,  8.69s/it] 94%|█████████▍| 4852/5150 [11:47:20<43:03,  8.67s/it] 94%|█████████▍| 4853/5150 [11:47:29<43:18,  8.75s/it] 94%|█████████▍| 4854/5150 [11:47:38<42:58,  8.71s/it] 94%|█████████▍| 4855/5150 [11:47:47<42:42,  8.69s/it] 94%|█████████▍| 4856/5150 [11:47:55<42:28,  8.67s/it] 94%|█████████▍| 4857/5150 [11:48:04<42:16,  8.66s/it] 94%|█████████▍| 4858/5150 [11:48:13<42:31,  8.74s/it] 94%|█████████▍| 4859/5150 [11:48:21<42:12,  8.70s/it] 94%|█████████▍| 4860/5150 [11:48:30<41:57,  8.68s/it]                                                      {'loss': '1.491e-06', 'grad_norm': '0.0003248', 'learning_rate': '1.939e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '146.1', 'tokens/total': 79634432, 'tokens/trainable': 25212724, 'epoch': '4.715'}
+ 94%|█████████▍| 4860/5150 [11:48:30<41:57,  8.68s/it] 94%|█████████▍| 4861/5150 [11:48:39<41:43,  8.66s/it] 94%|█████████▍| 4862/5150 [11:48:47<41:31,  8.65s/it] 94%|█████████▍| 4863/5150 [11:48:56<41:45,  8.73s/it] 94%|█████████▍| 4864/5150 [11:49:05<41:27,  8.70s/it] 94%|█████████▍| 4865/5150 [11:49:13<41:12,  8.68s/it] 94%|█████████▍| 4866/5150 [11:49:22<40:59,  8.66s/it] 95%|█████████▍| 4867/5150 [11:49:31<41:13,  8.74s/it] 95%|█████████▍| 4868/5150 [11:49:40<40:54,  8.70s/it] 95%|█████████▍| 4869/5150 [11:49:48<40:38,  8.68s/it] 95%|█████████▍| 4870/5150 [11:49:57<40:24,  8.66s/it]                                                      {'loss': '4.536e-06', 'grad_norm': '0.000254', 'learning_rate': '1.808e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '148.6', 'tokens/total': 79798272, 'tokens/trainable': 25264316, 'epoch': '4.725'}
+ 95%|█████████▍| 4870/5150 [11:49:57<40:24,  8.66s/it] 95%|█████████▍| 4871/5150 [11:50:05<40:13,  8.65s/it] 95%|█████████▍| 4872/5150 [11:50:14<40:27,  8.73s/it] 95%|█████████▍| 4873/5150 [11:50:23<40:09,  8.70s/it] 95%|█████████▍| 4874/5150 [11:50:32<39:54,  8.68s/it] 95%|█████████▍| 4875/5150 [11:50:40<39:41,  8.66s/it] 95%|█████████▍| 4876/5150 [11:50:49<39:53,  8.74s/it] 95%|█████████▍| 4877/5150 [11:50:58<39:35,  8.70s/it] 95%|█████████▍| 4878/5150 [11:51:06<39:19,  8.68s/it] 95%|█████████▍| 4879/5150 [11:51:15<39:06,  8.66s/it] 95%|█████████▍| 4880/5150 [11:51:24<38:55,  8.65s/it]                                                      {'loss': '1.985e-06', 'grad_norm': '0.00159', 'learning_rate': '1.682e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '150.6', 'tokens/total': 79962112, 'tokens/trainable': 25315936, 'epoch': '4.734'}
+ 95%|█████████▍| 4880/5150 [11:51:24<38:55,  8.65s/it] 95%|█████████▍| 4881/5150 [11:51:32<39:08,  8.73s/it] 95%|█████████▍| 4882/5150 [11:51:41<38:50,  8.70s/it] 95%|█████████▍| 4883/5150 [11:51:50<38:35,  8.67s/it] 95%|█████████▍| 4884/5150 [11:51:58<38:22,  8.66s/it] 95%|█████████▍| 4885/5150 [11:52:07<38:35,  8.74s/it] 95%|█████████▍| 4886/5150 [11:52:16<38:17,  8.70s/it] 95%|█████████▍| 4887/5150 [11:52:25<38:02,  8.68s/it] 95%|█████████▍| 4888/5150 [11:52:33<37:49,  8.66s/it] 95%|█████████▍| 4889/5150 [11:52:42<37:37,  8.65s/it] 95%|█████████▍| 4890/5150 [11:52:51<37:50,  8.73s/it]                                                      {'loss': '2.757e-06', 'grad_norm': '0.003281', 'learning_rate': '1.561e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '143.6', 'tokens/total': 80125952, 'tokens/trainable': 25367896, 'epoch': '4.744'}
+ 95%|█████████▍| 4890/5150 [11:52:51<37:50,  8.73s/it] 95%|█████████▍| 4891/5150 [11:52:59<37:34,  8.70s/it] 95%|█████████▍| 4892/5150 [11:53:08<37:19,  8.68s/it] 95%|█████████▌| 4893/5150 [11:53:17<37:06,  8.66s/it] 95%|█████████▌| 4894/5150 [11:53:25<37:16,  8.74s/it] 95%|█████████▌| 4895/5150 [11:53:34<36:58,  8.70s/it] 95%|█████████▌| 4896/5150 [11:53:43<36:44,  8.68s/it] 95%|█████████▌| 4897/5150 [11:53:51<36:31,  8.66s/it] 95%|█████████▌| 4898/5150 [11:54:00<36:19,  8.65s/it] 95%|█████████▌| 4899/5150 [11:54:09<36:30,  8.73s/it] 95%|█████████▌| 4900/5150 [11:54:18<36:14,  8.70s/it]                                                      {'loss': '2.729e-06', 'grad_norm': '0.0004271', 'learning_rate': '1.444e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '145.2', 'tokens/total': 80289792, 'tokens/trainable': 25419724, 'epoch': '4.754'}
+ 95%|█████████▌| 4900/5150 [11:54:18<36:14,  8.70s/it] 95%|█████████▌| 4901/5150 [11:54:26<36:00,  8.68s/it] 95%|█████████▌| 4902/5150 [11:54:35<35:47,  8.66s/it] 95%|█████████▌| 4903/5150 [11:54:44<35:58,  8.74s/it] 95%|█████████▌| 4904/5150 [11:54:52<35:41,  8.70s/it] 95%|█████████▌| 4905/5150 [11:55:01<35:26,  8.68s/it] 95%|█████████▌| 4906/5150 [11:55:10<35:14,  8.67s/it] 95%|█████████▌| 4907/5150 [11:55:18<35:03,  8.66s/it] 95%|█████████▌| 4908/5150 [11:55:27<35:15,  8.74s/it] 95%|█████████▌| 4909/5150 [11:55:36<34:58,  8.71s/it] 95%|█████████▌| 4910/5150 [11:55:44<34:44,  8.69s/it]                                                      {'loss': '1.21e-06', 'grad_norm': '0.0003823', 'learning_rate': '1.331e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '166.5', 'tokens/total': 80453632, 'tokens/trainable': 25471906, 'epoch': '4.763'}
+ 95%|█████████▌| 4910/5150 [11:55:44<34:44,  8.69s/it] 95%|█████████▌| 4911/5150 [11:55:53<34:32,  8.67s/it] 95%|█████████▌| 4912/5150 [11:56:02<34:41,  8.75s/it] 95%|█████████▌| 4913/5150 [11:56:11<34:24,  8.71s/it] 95%|█████████▌| 4914/5150 [11:56:19<34:09,  8.69s/it] 95%|█████████▌| 4915/5150 [11:56:28<33:57,  8.67s/it] 95%|█████████▌| 4916/5150 [11:56:36<33:45,  8.66s/it] 95%|█████████▌| 4917/5150 [11:56:45<33:56,  8.74s/it] 95%|█████████▌| 4918/5150 [11:56:54<33:40,  8.71s/it] 96%|█████████▌| 4919/5150 [11:57:03<33:25,  8.68s/it] 96%|█████████▌| 4920/5150 [11:57:11<33:13,  8.67s/it]                                                      {'loss': '8.538e-06', 'grad_norm': '0.001747', 'learning_rate': '1.223e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '142.5', 'tokens/total': 80617472, 'tokens/trainable': 25523292, 'epoch': '4.773'}
+ 96%|█████████▌| 4920/5150 [11:57:11<33:13,  8.67s/it] 96%|█████████▌| 4921/5150 [11:57:20<33:22,  8.75s/it] 96%|█████████▌| 4922/5150 [11:57:29<33:06,  8.71s/it] 96%|█████████▌| 4923/5150 [11:57:38<32:53,  8.69s/it] 96%|█████████▌| 4924/5150 [11:57:46<32:40,  8.68s/it] 96%|█████████▌| 4925/5150 [11:57:55<32:29,  8.66s/it] 96%|█████████▌| 4926/5150 [11:58:04<32:39,  8.75s/it] 96%|█████████▌| 4927/5150 [11:58:12<32:23,  8.72s/it] 96%|█████████▌| 4928/5150 [11:58:21<32:09,  8.69s/it] 96%|█████████▌| 4929/5150 [11:58:30<31:56,  8.67s/it] 96%|█████████▌| 4930/5150 [11:58:38<31:45,  8.66s/it]                                                      {'loss': '6.548e-06', 'grad_norm': '0.0002014', 'learning_rate': '1.12e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '142.6', 'tokens/total': 80781312, 'tokens/trainable': 25574864, 'epoch': '4.783'}
+ 96%|█████████▌| 4930/5150 [11:58:38<31:45,  8.66s/it] 96%|█████████▌| 4931/5150 [11:58:47<31:55,  8.75s/it] 96%|█████████▌| 4932/5150 [11:58:56<31:38,  8.71s/it] 96%|█████████▌| 4933/5150 [11:59:04<31:24,  8.68s/it] 96%|█████████▌| 4934/5150 [11:59:13<31:11,  8.66s/it] 96%|█████████▌| 4935/5150 [11:59:22<31:18,  8.74s/it] 96%|█████████▌| 4936/5150 [11:59:31<31:02,  8.70s/it] 96%|█████████▌| 4937/5150 [11:59:39<30:48,  8.68s/it] 96%|█████████▌| 4938/5150 [11:59:48<30:36,  8.66s/it] 96%|█████████▌| 4939/5150 [11:59:56<30:25,  8.65s/it] 96%|█████████▌| 4940/5150 [12:00:05<30:34,  8.73s/it]                                                      {'loss': '2.357e-06', 'grad_norm': '7.407e-05', 'learning_rate': '1.021e-06', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '143.2', 'tokens/total': 80945152, 'tokens/trainable': 25626232, 'epoch': '4.792'}
+ 96%|█████████▌| 4940/5150 [12:00:05<30:34,  8.73s/it] 96%|█████████▌| 4941/5150 [12:00:14<30:18,  8.70s/it] 96%|█████████▌| 4942/5150 [12:00:23<30:05,  8.68s/it] 96%|█████████▌| 4943/5150 [12:00:31<29:53,  8.66s/it] 96%|█████████▌| 4944/5150 [12:00:40<30:00,  8.74s/it] 96%|█████████▌| 4945/5150 [12:00:49<29:44,  8.70s/it] 96%|█████████▌| 4946/5150 [12:00:57<29:30,  8.68s/it] 96%|█████████▌| 4947/5150 [12:01:06<29:18,  8.66s/it] 96%|█████████▌| 4948/5150 [12:01:15<29:07,  8.65s/it] 96%|█████████▌| 4949/5150 [12:01:24<29:15,  8.73s/it] 96%|█████████▌| 4950/5150 [12:01:32<28:59,  8.70s/it]                                                      {'loss': '2.95e-05', 'grad_norm': '1.17e-05', 'learning_rate': '9.266e-07', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '151.2', 'tokens/total': 81108992, 'tokens/trainable': 25677548, 'epoch': '4.802'}
+ 96%|█████████▌| 4950/5150 [12:01:32<28:59,  8.70s/it] 96%|█████████▌| 4951/5150 [12:01:41<28:46,  8.68s/it] 96%|█████████▌| 4952/5150 [12:01:49<28:35,  8.66s/it] 96%|█████████▌| 4953/5150 [12:01:58<28:41,  8.74s/it] 96%|█████████▌| 4954/5150 [12:02:07<28:25,  8.70s/it] 96%|█████████▌| 4955/5150 [12:02:16<28:12,  8.68s/it] 96%|█████████▌| 4956/5150 [12:02:24<28:00,  8.66s/it] 96%|█████████▋| 4957/5150 [12:02:33<27:50,  8.65s/it] 96%|█████████▋| 4958/5150 [12:02:42<27:56,  8.73s/it] 96%|█████████▋| 4959/5150 [12:02:50<27:41,  8.70s/it] 96%|█████████▋| 4960/5150 [12:02:59<27:28,  8.68s/it]                                                      {'loss': '1.261e-05', 'grad_norm': '5.998e-06', 'learning_rate': '8.368e-07', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '143', 'tokens/total': 81272832, 'tokens/trainable': 25728896, 'epoch': '4.812'}
+ 96%|█████████▋| 4960/5150 [12:02:59<27:28,  8.68s/it] 96%|█████████▋| 4961/5150 [12:03:08<27:16,  8.66s/it] 96%|█████████▋| 4962/5150 [12:03:17<27:22,  8.74s/it] 96%|█████████▋| 4963/5150 [12:03:25<27:07,  8.70s/it] 96%|█████████▋| 4964/5150 [12:03:34<26:54,  8.68s/it] 96%|█████████▋| 4965/5150 [12:03:42<26:42,  8.66s/it] 96%|█████████▋| 4966/5150 [12:03:51<26:31,  8.65s/it] 96%|█████████▋| 4967/5150 [12:04:00<26:37,  8.73s/it] 96%|█████████▋| 4968/5150 [12:04:09<26:23,  8.70s/it] 96%|█████████▋| 4969/5150 [12:04:17<26:10,  8.67s/it] 97%|█████████▋| 4970/5150 [12:04:26<25:58,  8.66s/it]                                                      {'loss': '7.947e-06', 'grad_norm': '1.052e-05', 'learning_rate': '7.516e-07', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '146.8', 'tokens/total': 81436672, 'tokens/trainable': 25780244, 'epoch': '4.822'}
+ 97%|█████████▋| 4970/5150 [12:04:26<25:58,  8.66s/it] 97%|█████████▋| 4971/5150 [12:04:35<26:04,  8.74s/it] 97%|█████████▋| 4972/5150 [12:04:43<25:49,  8.70s/it] 97%|█████████▋| 4973/5150 [12:04:52<25:36,  8.68s/it] 97%|█████████▋| 4974/5150 [12:05:01<25:24,  8.66s/it] 97%|█████████▋| 4975/5150 [12:05:09<25:14,  8.65s/it] 97%|█████████▋| 4976/5150 [12:05:18<25:18,  8.73s/it] 97%|█████████▋| 4977/5150 [12:05:27<25:04,  8.70s/it] 97%|█████████▋| 4978/5150 [12:05:35<24:51,  8.67s/it] 97%|█████████▋| 4979/5150 [12:05:44<24:40,  8.66s/it] 97%|█████████▋| 4980/5150 [12:05:53<24:30,  8.65s/it]                                                      {'loss': '1.08e-06', 'grad_norm': '8.18e-06', 'learning_rate': '6.709e-07', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '168.7', 'tokens/total': 81600512, 'tokens/trainable': 25832328, 'epoch': '4.831'}
+ 97%|█████████▋| 4980/5150 [12:05:53<24:30,  8.65s/it] 97%|█████████▋| 4981/5150 [12:06:02<24:35,  8.73s/it] 97%|█████████▋| 4982/5150 [12:06:10<24:21,  8.70s/it] 97%|█████████▋| 4983/5150 [12:06:19<24:08,  8.68s/it] 97%|█████████▋| 4984/5150 [12:06:27<23:57,  8.66s/it] 97%|█████████▋| 4985/5150 [12:06:36<24:01,  8.74s/it] 97%|█████████▋| 4986/5150 [12:06:45<23:47,  8.71s/it] 97%|█████████▋| 4987/5150 [12:06:54<23:34,  8.68s/it] 97%|█████████▋| 4988/5150 [12:07:02<23:23,  8.66s/it] 97%|█████████▋| 4989/5150 [12:07:11<23:13,  8.65s/it] 97%|█████████▋| 4990/5150 [12:07:20<23:16,  8.73s/it]                                                      {'loss': '3.069e-06', 'grad_norm': '7.188e-05', 'learning_rate': '5.948e-07', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '139.2', 'tokens/total': 81764352, 'tokens/trainable': 25884064, 'epoch': '4.841'}
+ 97%|█████████▋| 4990/5150 [12:07:20<23:16,  8.73s/it] 97%|█████████▋| 4991/5150 [12:07:28<23:03,  8.70s/it] 97%|█████████▋| 4992/5150 [12:07:37<22:51,  8.68s/it] 97%|█████████▋| 4993/5150 [12:07:46<22:39,  8.66s/it] 97%|█████████▋| 4994/5150 [12:07:55<22:43,  8.74s/it] 97%|█████████▋| 4995/5150 [12:08:03<22:29,  8.71s/it] 97%|█████████▋| 4996/5150 [12:08:12<22:16,  8.68s/it] 97%|█████████▋| 4997/5150 [12:08:21<22:05,  8.66s/it] 97%|█████████▋| 4998/5150 [12:08:29<21:55,  8.65s/it] 97%|█████████▋| 4999/5150 [12:08:38<21:58,  8.73s/it] 97%|█████████▋| 5000/5150 [12:08:47<21:45,  8.70s/it]                                                      {'loss': '6.56e-06', 'grad_norm': '2.399e-05', 'learning_rate': '5.233e-07', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '143.8', 'tokens/total': 81928192, 'tokens/trainable': 25936008, 'epoch': '4.851'}
+ 97%|█████████▋| 5000/5150 [12:08:47<21:45,  8.70s/it] 97%|█████████▋| 5001/5150 [12:08:55<21:33,  8.68s/it] 97%|█████████▋| 5002/5150 [12:09:04<21:22,  8.67s/it] 97%|█████████▋| 5003/5150 [12:09:13<21:25,  8.74s/it] 97%|█████████▋| 5004/5150 [12:09:21<21:10,  8.70s/it] 97%|█████████▋| 5005/5150 [12:09:30<20:58,  8.68s/it] 97%|█████████▋| 5006/5150 [12:09:39<20:47,  8.66s/it] 97%|█████████▋| 5007/5150 [12:09:47<20:36,  8.65s/it] 97%|█████████▋| 5008/5150 [12:09:56<20:39,  8.73s/it] 97%|█████████▋| 5009/5150 [12:10:05<20:26,  8.70s/it] 97%|█████████▋| 5010/5150 [12:10:14<20:14,  8.68s/it]                                                      {'loss': '1.683e-05', 'grad_norm': '6.506e-05', 'learning_rate': '4.563e-07', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '149.1', 'tokens/total': 82092032, 'tokens/trainable': 25987856, 'epoch': '4.86'}
+ 97%|█████████▋| 5010/5150 [12:10:14<20:14,  8.68s/it] 97%|█████████▋| 5011/5150 [12:10:22<20:03,  8.66s/it] 97%|█████████▋| 5012/5150 [12:10:31<19:53,  8.65s/it] 97%|█████████▋| 5013/5150 [12:10:40<19:56,  8.73s/it] 97%|█████████▋| 5014/5150 [12:10:48<19:43,  8.70s/it] 97%|█████████▋| 5015/5150 [12:10:57<19:31,  8.68s/it] 97%|█████████▋| 5016/5150 [12:11:06<19:20,  8.66s/it] 97%|█████████▋| 5017/5150 [12:11:14<19:21,  8.73s/it] 97%|█████████▋| 5018/5150 [12:11:23<19:07,  8.70s/it] 97%|█████████▋| 5019/5150 [12:11:32<18:56,  8.67s/it] 97%|█████████▋| 5020/5150 [12:11:40<18:45,  8.66s/it]                                                      {'loss': '9.642e-07', 'grad_norm': '2.812e-05', 'learning_rate': '3.939e-07', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '159.5', 'tokens/total': 82255872, 'tokens/trainable': 26040676, 'epoch': '4.87'}
+ 97%|█████████▋| 5020/5150 [12:11:40<18:45,  8.66s/it] 97%|█████████▋| 5021/5150 [12:11:49<18:35,  8.65s/it] 98%|█████████▊| 5022/5150 [12:11:58<18:37,  8.73s/it] 98%|█████████▊| 5023/5150 [12:12:06<18:24,  8.70s/it] 98%|█████████▊| 5024/5150 [12:12:15<18:13,  8.68s/it] 98%|█████████▊| 5025/5150 [12:12:24<18:02,  8.66s/it] 98%|█████████▊| 5026/5150 [12:12:33<18:03,  8.74s/it] 98%|█████████▊| 5027/5150 [12:12:41<17:50,  8.70s/it] 98%|█████████▊| 5028/5150 [12:12:50<17:38,  8.68s/it] 98%|█████████▊| 5029/5150 [12:12:59<17:27,  8.66s/it] 98%|█████████▊| 5030/5150 [12:13:07<17:17,  8.65s/it]                                                      {'loss': '1.481e-05', 'grad_norm': '6.634e-06', 'learning_rate': '3.361e-07', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '151.1', 'tokens/total': 82419712, 'tokens/trainable': 26091718, 'epoch': '4.88'}
+ 98%|█████████▊| 5030/5150 [12:13:07<17:17,  8.65s/it] 98%|█████████▊| 5031/5150 [12:13:16<17:18,  8.73s/it] 98%|█████████▊| 5032/5150 [12:13:25<17:06,  8.70s/it] 98%|█████████▊| 5033/5150 [12:13:33<16:54,  8.68s/it] 98%|█████████▊| 5034/5150 [12:13:42<16:44,  8.66s/it] 98%|█████████▊| 5035/5150 [12:13:51<16:44,  8.73s/it] 98%|█████████▊| 5036/5150 [12:13:59<16:32,  8.70s/it] 98%|█████████▊| 5037/5150 [12:14:08<16:21,  8.68s/it] 98%|█████████▊| 5038/5150 [12:14:17<16:10,  8.67s/it] 98%|█████████▊| 5039/5150 [12:14:25<16:00,  8.65s/it] 98%|█████████▊| 5040/5150 [12:14:34<16:00,  8.74s/it]                                                      {'loss': '2.48e-06', 'grad_norm': '1.693e-05', 'learning_rate': '2.829e-07', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '147.1', 'tokens/total': 82583552, 'tokens/trainable': 26143844, 'epoch': '4.889'}
+ 98%|█████████▊| 5040/5150 [12:14:34<16:00,  8.74s/it] 98%|█████████▊| 5041/5150 [12:14:43<15:48,  8.70s/it] 98%|█████████▊| 5042/5150 [12:14:52<15:37,  8.68s/it] 98%|█████████▊| 5043/5150 [12:15:00<15:26,  8.66s/it] 98%|█████████▊| 5044/5150 [12:15:09<15:26,  8.74s/it] 98%|█████████▊| 5045/5150 [12:15:18<15:14,  8.71s/it] 98%|█████████▊| 5046/5150 [12:15:26<15:02,  8.68s/it] 98%|█████████▊| 5047/5150 [12:15:35<14:52,  8.66s/it] 98%|█████████▊| 5048/5150 [12:15:44<14:42,  8.65s/it] 98%|█████████▊| 5049/5150 [12:15:52<14:41,  8.73s/it] 98%|█████████▊| 5050/5150 [12:16:01<14:29,  8.70s/it]                                                      {'loss': '3.122e-05', 'grad_norm': '0.0007486', 'learning_rate': '2.342e-07', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '162.2', 'tokens/total': 82747392, 'tokens/trainable': 26195386, 'epoch': '4.899'}
+ 98%|█████████▊| 5050/5150 [12:16:01<14:29,  8.70s/it] 98%|█████████▊| 5051/5150 [12:16:10<14:18,  8.68s/it] 98%|█████████▊| 5052/5150 [12:16:18<14:08,  8.66s/it] 98%|█████████▊| 5053/5150 [12:16:27<14:06,  8.73s/it] 98%|█████████▊| 5054/5150 [12:16:36<13:55,  8.70s/it] 98%|█████████▊| 5055/5150 [12:16:44<13:44,  8.68s/it] 98%|█████████▊| 5056/5150 [12:16:53<13:34,  8.66s/it] 98%|█████████▊| 5057/5150 [12:17:02<13:24,  8.65s/it] 98%|█████████▊| 5058/5150 [12:17:11<13:23,  8.73s/it] 98%|█████████▊| 5059/5150 [12:17:19<13:11,  8.70s/it] 98%|█████████▊| 5060/5150 [12:17:28<13:01,  8.68s/it]                                                      {'loss': '3.922e-05', 'grad_norm': '0.0001198', 'learning_rate': '1.902e-07', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '166', 'tokens/total': 82911232, 'tokens/trainable': 26247460, 'epoch': '4.909'}
+ 98%|█████████▊| 5060/5150 [12:17:28<13:01,  8.68s/it] 98%|█████████▊| 5061/5150 [12:17:37<12:50,  8.66s/it] 98%|█████████▊| 5062/5150 [12:17:45<12:48,  8.74s/it] 98%|█████████▊| 5063/5150 [12:17:54<12:37,  8.70s/it] 98%|█████████▊| 5064/5150 [12:18:03<12:26,  8.68s/it] 98%|█████████▊| 5065/5150 [12:18:11<12:16,  8.66s/it] 98%|█████████▊| 5066/5150 [12:18:20<12:06,  8.65s/it] 98%|█████████▊| 5067/5150 [12:18:29<12:04,  8.73s/it] 98%|█████████▊| 5068/5150 [12:18:37<11:53,  8.70s/it] 98%|█████████▊| 5069/5150 [12:18:46<11:42,  8.67s/it] 98%|█████████▊| 5070/5150 [12:18:55<11:32,  8.66s/it]                                                      {'loss': '1.298e-05', 'grad_norm': '1.353e-05', 'learning_rate': '1.507e-07', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '154.4', 'tokens/total': 83075072, 'tokens/trainable': 26299032, 'epoch': '4.919'}
+ 98%|█████████▊| 5070/5150 [12:18:55<11:32,  8.66s/it] 98%|█████████▊| 5071/5150 [12:19:04<11:30,  8.74s/it] 98%|█████████▊| 5072/5150 [12:19:12<11:18,  8.70s/it] 99%|█████████▊| 5073/5150 [12:19:21<11:08,  8.68s/it] 99%|█████████▊| 5074/5150 [12:19:30<10:58,  8.66s/it] 99%|█████████▊| 5075/5150 [12:19:38<10:48,  8.65s/it] 99%|█████████▊| 5076/5150 [12:19:47<10:45,  8.73s/it] 99%|█████████▊| 5077/5150 [12:19:56<10:34,  8.70s/it] 99%|█████████▊| 5078/5150 [12:20:04<10:24,  8.67s/it] 99%|█████████▊| 5079/5150 [12:20:13<10:14,  8.66s/it] 99%|█████████▊| 5080/5150 [12:20:22<10:11,  8.73s/it]                                                      {'loss': '3.43e-05', 'grad_norm': '0.02285', 'learning_rate': '1.158e-07', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '145.4', 'tokens/total': 83238912, 'tokens/trainable': 26351562, 'epoch': '4.928'}
+ 99%|█████████▊| 5080/5150 [12:20:22<10:11,  8.73s/it] 99%|█████████▊| 5081/5150 [12:20:30<10:00,  8.70s/it] 99%|█████████▊| 5082/5150 [12:20:39<09:50,  8.68s/it] 99%|█████████▊| 5083/5150 [12:20:48<09:40,  8.66s/it] 99%|█████████▊| 5084/5150 [12:20:56<09:31,  8.65s/it] 99%|█████████▊| 5085/5150 [12:21:05<09:27,  8.73s/it] 99%|█████████▉| 5086/5150 [12:21:14<09:16,  8.70s/it] 99%|█████████▉| 5087/5150 [12:21:22<09:06,  8.68s/it] 99%|█████████▉| 5088/5150 [12:21:31<08:56,  8.66s/it] 99%|█████████▉| 5089/5150 [12:21:40<08:53,  8.74s/it] 99%|█████████▉| 5090/5150 [12:21:49<08:42,  8.70s/it]                                                      {'loss': '1.706e-05', 'grad_norm': '2.518e-05', 'learning_rate': '8.546e-08', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '137', 'tokens/total': 83402752, 'tokens/trainable': 26403108, 'epoch': '4.938'}
+ 99%|█████████▉| 5090/5150 [12:21:49<08:42,  8.70s/it] 99%|█████████▉| 5091/5150 [12:21:57<08:32,  8.68s/it] 99%|█████████▉| 5092/5150 [12:22:06<08:22,  8.66s/it] 99%|█████████▉| 5093/5150 [12:22:15<08:13,  8.65s/it] 99%|█████████▉| 5094/5150 [12:22:23<08:08,  8.73s/it] 99%|█████████▉| 5095/5150 [12:22:32<07:58,  8.69s/it] 99%|█████████▉| 5096/5150 [12:22:41<07:48,  8.67s/it] 99%|█████████▉| 5097/5150 [12:22:49<07:38,  8.66s/it] 99%|█████████▉| 5098/5150 [12:22:58<07:29,  8.65s/it] 99%|█████████▉| 5099/5150 [12:23:07<07:24,  8.72s/it] 99%|█████████▉| 5100/5150 [12:23:15<07:14,  8.69s/it]                                                      {'loss': '3.086e-06', 'grad_norm': '8.545e-05', 'learning_rate': '5.974e-08', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '150.4', 'tokens/total': 83566592, 'tokens/trainable': 26454752, 'epoch': '4.948'}
+ 99%|█████████▉| 5100/5150 [12:23:15<07:14,  8.69s/it] 99%|█████████▉| 5101/5150 [12:23:24<07:05,  8.68s/it] 99%|█████████▉| 5102/5150 [12:23:33<06:55,  8.66s/it] 99%|█████████▉| 5103/5150 [12:23:42<06:50,  8.74s/it] 99%|█████████▉| 5104/5150 [12:23:50<06:40,  8.70s/it] 99%|█████████▉| 5105/5150 [12:23:59<06:30,  8.68s/it] 99%|█████████▉| 5106/5150 [12:24:07<06:21,  8.66s/it] 99%|█████████▉| 5107/5150 [12:24:16<06:12,  8.65s/it] 99%|█████████▉| 5108/5150 [12:24:25<06:06,  8.73s/it] 99%|█████████▉| 5109/5150 [12:24:34<05:56,  8.70s/it] 99%|█████████▉| 5110/5150 [12:24:42<05:47,  8.68s/it]                                                      {'loss': '4.356e-06', 'grad_norm': '0.0004782', 'learning_rate': '3.861e-08', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '147.1', 'tokens/total': 83730432, 'tokens/trainable': 26506440, 'epoch': '4.957'}
+ 99%|█████████▉| 5110/5150 [12:24:42<05:47,  8.68s/it] 99%|█████████▉| 5111/5150 [12:24:51<05:37,  8.66s/it] 99%|█████████▉| 5112/5150 [12:25:00<05:31,  8.73s/it] 99%|█████████▉| 5113/5150 [12:25:08<05:21,  8.70s/it] 99%|█████████▉| 5114/5150 [12:25:17<05:12,  8.68s/it] 99%|█████████▉| 5115/5150 [12:25:26<05:03,  8.66s/it] 99%|█████████▉| 5116/5150 [12:25:34<04:54,  8.65s/it] 99%|█████████▉| 5117/5150 [12:25:43<04:47,  8.72s/it] 99%|█████████▉| 5118/5150 [12:25:52<04:38,  8.69s/it] 99%|█████████▉| 5119/5150 [12:26:00<04:28,  8.67s/it] 99%|█████████▉| 5120/5150 [12:26:09<04:19,  8.66s/it]                                                      {'loss': '2.406e-06', 'grad_norm': '7.294e-05', 'learning_rate': '2.207e-08', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '139.3', 'tokens/total': 83894272, 'tokens/trainable': 26557596, 'epoch': '4.967'}
+ 99%|█████████▉| 5120/5150 [12:26:09<04:19,  8.66s/it] 99%|█████████▉| 5121/5150 [12:26:18<04:10,  8.65s/it] 99%|█████████▉| 5122/5150 [12:26:27<04:04,  8.73s/it] 99%|█████████▉| 5123/5150 [12:26:35<03:54,  8.69s/it] 99%|█████████▉| 5124/5150 [12:26:44<03:45,  8.67s/it]100%|█████████▉| 5125/5150 [12:26:52<03:36,  8.66s/it]100%|█████████▉| 5126/5150 [12:27:01<03:29,  8.73s/it]100%|█████████▉| 5127/5150 [12:27:10<03:20,  8.70s/it]100%|█████████▉| 5128/5150 [12:27:19<03:10,  8.68s/it]100%|█████████▉| 5129/5150 [12:27:27<03:01,  8.66s/it]100%|█████████▉| 5130/5150 [12:27:36<02:52,  8.65s/it]                                                      {'loss': '4.526e-06', 'grad_norm': '0.0005188', 'learning_rate': '1.013e-08', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '151.7', 'tokens/total': 84058112, 'tokens/trainable': 26608784, 'epoch': '4.977'}
+100%|█████████▉| 5130/5150 [12:27:36<02:52,  8.65s/it]100%|█████████▉| 5131/5150 [12:27:45<02:45,  8.73s/it]100%|█████████▉| 5132/5150 [12:27:53<02:36,  8.69s/it]100%|█████████▉| 5133/5150 [12:28:02<02:27,  8.67s/it]100%|█████████▉| 5134/5150 [12:28:11<02:18,  8.66s/it]100%|█████████▉| 5135/5150 [12:28:20<02:10,  8.73s/it]100%|█████████▉| 5136/5150 [12:28:28<02:01,  8.70s/it]100%|█████████▉| 5137/5150 [12:28:37<01:52,  8.67s/it]100%|█████████▉| 5138/5150 [12:28:45<01:43,  8.66s/it]100%|█████████▉| 5139/5150 [12:28:54<01:35,  8.65s/it]100%|█████████▉| 5140/5150 [12:29:03<01:27,  8.72s/it]                                                      {'loss': '1.166e-05', 'grad_norm': '0.01116', 'learning_rate': '2.779e-09', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '145.3', 'tokens/total': 84221952, 'tokens/trainable': 26660606, 'epoch': '4.986'}
+100%|█████████▉| 5140/5150 [12:29:03<01:27,  8.72s/it]100%|█████████▉| 5141/5150 [12:29:12<01:18,  8.69s/it]100%|█████████▉| 5142/5150 [12:29:20<01:09,  8.67s/it]100%|█████████▉| 5143/5150 [12:29:29<01:00,  8.66s/it]100%|█████████▉| 5144/5150 [12:29:38<00:52,  8.73s/it]100%|█████████▉| 5145/5150 [12:29:46<00:43,  8.70s/it]100%|█████████▉| 5146/5150 [12:29:55<00:34,  8.67s/it]100%|█████████▉| 5147/5150 [12:30:04<00:25,  8.66s/it]100%|█████████▉| 5148/5150 [12:30:12<00:17,  8.65s/it]100%|█████████▉| 5149/5150 [12:30:21<00:08,  8.72s/it]100%|██████████| 5150/5150 [12:30:30<00:00,  8.69s/it]                                                      {'loss': '2.238e-06', 'grad_norm': '0.00284', 'learning_rate': '2.297e-11', 'ppl': '1', 'memory/max_active (GiB)': '16.23', 'memory/max_allocated (GiB)': '16.23', 'memory/device_reserved (GiB)': '18.85', 'tokens/train_per_sec_per_gpu': '165.1', 'tokens/total': 84385792, 'tokens/trainable': 26712160, 'epoch': '4.996'}
+100%|██████████| 5150/5150 [12:30:30<00:00,  8.69s/it][2026-03-05 16:03:10,314] [INFO] [axolotl.core.trainers.base.evaluate:400] [PID:1482537] Running evaluation step...
+[2026-03-05 16:03:11,385] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.5214476585388184
+[2026-03-05 16:03:11,907] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.5211441516876221
+[2026-03-05 16:03:12,428] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.5207276344299316
+[2026-03-05 16:03:13,195] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1482537] generate_batches time: 0.7667722702026367
+[2026-03-05 16:03:13,195] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:1482537] gather_len_batches: [17]
+
+  0%|          | 0/17 [00:00<?, ?it/s][A
+ 12%|█▏        | 2/17 [00:00<00:04,  3.25it/s][A
+ 18%|█▊        | 3/17 [00:01<00:06,  2.29it/s][A
+ 24%|██▎       | 4/17 [00:01<00:06,  1.98it/s][A
+ 29%|██▉       | 5/17 [00:02<00:08,  1.45it/s][A
+ 35%|███▌      | 6/17 [00:03<00:07,  1.51it/s][A
+ 41%|████      | 7/17 [00:04<00:06,  1.54it/s][A
+ 47%|████▋     | 8/17 [00:04<00:05,  1.57it/s][A
+ 53%|█████▎    | 9/17 [00:05<00:05,  1.47it/s][A
+ 59%|█████▉    | 10/17 [00:06<00:04,  1.52it/s][A
+ 65%|██████▍   | 11/17 [00:06<00:03,  1.55it/s][A
+ 71%|███████   | 12/17 [00:07<00:03,  1.57it/s][A
+ 76%|███████▋  | 13/17 [00:08<00:02,  1.49it/s][A
+ 82%|████████▏ | 14/17 [00:08<00:01,  1.54it/s][A
+ 88%|████████▊ | 15/17 [00:09<00:01,  1.56it/s][A
+ 94%|█████████▍| 16/17 [00:09<00:00,  1.58it/s][ATraceback (most recent call last):
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 300, in _run_finalizers
+    finalizer()
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 224, in __call__
+    res = self._callback(*self._args, **self._kwargs)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 133, in _remove_temp_dir
+    rmtree(tempdir)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 725, in rmtree
+    _rmtree_safe_fd(fd, path, onerror)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 681, in _rmtree_safe_fd
+    onerror(os.unlink, fullname, sys.exc_info())
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 679, in _rmtree_safe_fd
+    os.unlink(entry.name, dir_fd=topfd)
+OSError: [Errno 16] Device or resource busy: '.nfs00000000000879de0000611b'
+
+100%|██████████| 17/17 [00:10<00:00,  1.48it/s][A                                                      
+                                               [A{'eval_loss': '1.587e-05', 'eval_runtime': '12.29', 'eval_samples_per_second': '16.28', 'eval_steps_per_second': '8.14', 'eval_ppl': '1', 'memory/max_active (GiB)': '14.2', 'memory/max_allocated (GiB)': '14.2', 'memory/device_reserved (GiB)': '18.85', 'epoch': '4.996', 'tokens/train_per_sec_per_gpu': '0'}
+100%|██████████| 5150/5150 [12:30:45<00:00,  8.69s/it]
+100%|██████████| 17/17 [00:10<00:00,  1.48it/s][A
+                                               [A[2026-03-05 16:03:25,517] [INFO] [axolotl.core.trainers.base._save:721] [PID:1482537] Saving model checkpoint to /home/jiaruil5/math_rl/mix_teachers/r3lit_rl/mix_teachers/checkpoints/math_operations/primitive_atomic_balanced_sft_50k_t20260305/checkpoint-5150
+                                                      {'train_runtime': '4.506e+04', 'train_samples_per_second': '0.914', 'train_steps_per_second': '0.114', 'train_loss': '0.00582', 'memory/max_active (GiB)': '16.73', 'memory/max_allocated (GiB)': '16.73', 'memory/device_reserved (GiB)': '17.13', 'epoch': '4.996', 'tokens/train_per_sec_per_gpu': '0'}
+100%|██████████| 5150/5150 [12:30:54<00:00,  8.69s/it]100%|██████████| 5150/5150 [12:30:54<00:00,  8.75s/it]Traceback (most recent call last):
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 300, in _run_finalizers
+    finalizer()
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 224, in __call__
+    res = self._callback(*self._args, **self._kwargs)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/multiprocessing/util.py", line 133, in _remove_temp_dir
+    rmtree(tempdir)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 725, in rmtree
+    _rmtree_safe_fd(fd, path, onerror)
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 681, in _rmtree_safe_fd
+    onerror(os.unlink, fullname, sys.exc_info())
+  File "/data/user_data/jiaruil5/miniconda3/envs/axolotl/lib/python3.10/shutil.py", line 679, in _rmtree_safe_fd
+    os.unlink(entry.name, dir_fd=topfd)
+OSError: [Errno 16] Device or resource busy: '.nfs0000000000086e920000611c'
+
+[2026-03-05 16:03:34,548] [INFO] [axolotl.train.save_trained_model:226] [PID:1482537] Training completed! Saving trained model to /home/jiaruil5/math_rl/mix_teachers/r3lit_rl/mix_teachers/checkpoints/math_operations/primitive_atomic_balanced_sft_50k_t20260305.
+[2026-03-05 16:03:35,199] [INFO] [axolotl.train.save_trained_model:340] [PID:1482537] Model successfully saved to /home/jiaruil5/math_rl/mix_teachers/r3lit_rl/mix_teachers/checkpoints/math_operations/primitive_atomic_balanced_sft_50k_t20260305