Training in progress, step 2250, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +92 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9d3ca1d8f31e80248773ed8ea5c99dec1649dfd015e7b4e09fb8801a2f87acf4
 size 84972248

 version https://git-lfs.github.com/spec/v1
+oid sha256:afc9e576ce294178c6b2fd6e738300f820db1a7fac04d47b3eed7d1fe7b964da
 size 84972248

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6034f11a3ed80ef2f342d581363b8c8785b383cb84cc32912b9ec65c5130a5d8
 size 43434405

 version https://git-lfs.github.com/spec/v1
+oid sha256:2ad1ba58e3875c031c561de720dee24bbcaf2368184170ad0d5e17db4ea54f8e
 size 43434405

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7b3d335d4434dc38a54623d6efa9ce5966526f63356dfa46e44de858a461289a
 size 14917

 version https://git-lfs.github.com/spec/v1
+oid sha256:8da9f55f44143145d0788031a26e62bf2132ba4d1937c34de59b503aa7038a88
 size 14917

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:049acc437e6ffa36f74a2a4841d3cfeb93a5bc183f816e8aa5a3f989039dbda6
 size 14917

 version https://git-lfs.github.com/spec/v1
+oid sha256:f438b55116651a9ee16e24296470229073fe7ec34f3976810d422db5e68d5204
 size 14917

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7372927d3408d4e65fe807b9c8c1f0b91b9b1800b28f92f162508ffcabddc6e6
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c231d2fef38a21f0b802526519cca758a148fd1c0a091bc4593caa9fef72be0
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 2000,
-  "best_metric": 0.1900114119052887,
-  "best_model_checkpoint": "/kaggle/working/obsidian_critic_qwen35_t4x2_unsloth/runs/obsidian_critic_full_epoch/checkpoint-2000",
-  "epoch": 0.8868687988470706,
   "eval_steps": 125,
-  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -708,6 +708,92 @@
       "tokens_per_second": 340.07002840114217,
       "tokens_per_step": 1149.8275,
       "total_tokens_seen": 2299655
     }
   ],
   "logging_steps": 50,
@@ -736,7 +822,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.4776071086722253e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 2250,
+  "best_metric": 0.18876151740550995,
+  "best_model_checkpoint": "/kaggle/working/obsidian_critic_qwen35_t4x2_unsloth/runs/obsidian_critic_full_epoch/checkpoint-2250",
+  "epoch": 0.9977273987029543,
   "eval_steps": 125,
+  "global_step": 2250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "tokens_per_second": 340.07002840114217,
       "tokens_per_step": 1149.8275,
       "total_tokens_seen": 2299655
+    },
+    {
+      "epoch": 0.9090405188182473,
+      "grad_norm": 0.44616127014160156,
+      "last_batch_tokens": 151,
+      "learning_rate": 2.072081132410253e-06,
+      "loss": 0.1782122802734375,
+      "lr": 2.0522471462437796e-06,
+      "step": 2050,
+      "tokens_per_second": 81.0157351221381,
+      "tokens_per_step": 1160.878536585366,
+      "total_tokens_seen": 2379801
+    },
+    {
+      "epoch": 0.931212238789424,
+      "grad_norm": 0.4230777621269226,
+      "last_batch_tokens": 188,
+      "learning_rate": 1.195500515894149e-06,
+      "loss": 0.17306018829345704,
+      "lr": 1.1803797270814765e-06,
+      "step": 2100,
+      "tokens_per_second": 80.14939686559167,
+      "tokens_per_step": 1170.3680952380953,
+      "total_tokens_seen": 2457773
+    },
+    {
+      "epoch": 0.9422980987750125,
+      "eval_loss": 0.18897105753421783,
+      "eval_runtime": 95.0115,
+      "eval_samples_per_second": 3.821,
+      "eval_steps_per_second": 1.916,
+      "last_batch_tokens": 172,
+      "lr": 8.333381642750881e-07,
+      "step": 2125,
+      "tokens_per_second": 120.10909547338339,
+      "tokens_per_step": 1188.5943529411766,
+      "total_tokens_seen": 2525763
+    },
+    {
+      "epoch": 0.9533839587606009,
+      "grad_norm": 0.2957008183002472,
+      "last_batch_tokens": 305,
+      "learning_rate": 5.564793899281884e-07,
+      "loss": 0.1782497787475586,
+      "lr": 5.461454000209198e-07,
+      "step": 2150,
+      "tokens_per_second": 83.24645935651418,
+      "tokens_per_step": 1193.8697674418604,
+      "total_tokens_seen": 2566820
+    },
+    {
+      "epoch": 0.9755556787317776,
+      "grad_norm": 0.49967435002326965,
+      "last_batch_tokens": 156,
+      "learning_rate": 1.5812823683962197e-07,
+      "loss": 0.19703115463256837,
+      "lr": 1.5263134729363583e-07,
+      "step": 2200,
+      "tokens_per_second": 75.00656410059429,
+      "tokens_per_step": 1199.9336363636364,
+      "total_tokens_seen": 2639854
+    },
+    {
+      "epoch": 0.9977273987029543,
+      "grad_norm": 0.26038259267807007,
+      "last_batch_tokens": 322,
+      "learning_rate": 2.386060162717918e-09,
+      "loss": 0.17010717391967772,
+      "lr": 1.7530274921462308e-09,
+      "step": 2250,
+      "tokens_per_second": 78.96076733362268,
+      "tokens_per_step": 1208.1137777777778,
+      "total_tokens_seen": 2718256
+    },
+    {
+      "epoch": 0.9977273987029543,
+      "eval_loss": 0.18876151740550995,
+      "eval_runtime": 95.314,
+      "eval_samples_per_second": 3.808,
+      "eval_steps_per_second": 1.909,
+      "last_batch_tokens": 172,
+      "lr": 1.7530274921462308e-09,
+      "step": 2250,
+      "tokens_per_second": 337.1431434660513,
+      "tokens_per_step": 1222.3973333333333,
+      "total_tokens_seen": 2750394
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 1.6621215424289178e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null