irodkin
/

InnerLoopARMTForCausalLM_run_34

Safetensors

armt

custom_code

Model card Files Files and versions

xet

Community

irodkin commited on 6 days ago

Commit

4838b38

verified ·

1 Parent(s): 2e7c346

Training checkpoint at step 34000

Browse files

Files changed (1) hide show

trainer_state.json +186 -6

trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 33400,
-  "best_metric": 2.48046875,
-  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/google/gemma-3-1b-it/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_34/checkpoint-33000",
-  "epoch": 0.67,
   "eval_steps": 100,
-  "global_step": 33500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -12068,6 +12068,186 @@
       "eval_samples_per_second": 2.47,
       "eval_steps_per_second": 1.235,
       "step": 33500
     }
   ],
   "logging_steps": 25,
@@ -12087,7 +12267,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.518134864593918e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 34000,
+  "best_metric": 2.479717493057251,
+  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/google/gemma-3-1b-it/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_34/checkpoint-34000",
+  "epoch": 0.68,
   "eval_steps": 100,
+  "global_step": 34000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 2.47,
       "eval_steps_per_second": 1.235,
       "step": 33500
+    },
+    {
+      "epoch": 0.6705,
+      "grad_norm": 1.441673290204565,
+      "learning_rate": 3.6613333333333334e-06,
+      "loss": 2.4663,
+      "step": 33525
+    },
+    {
+      "epoch": 0.671,
+      "grad_norm": 1.5853407892539593,
+      "learning_rate": 3.6557777777777782e-06,
+      "loss": 2.4595,
+      "step": 33550
+    },
+    {
+      "epoch": 0.6715,
+      "grad_norm": 1.5822227773393136,
+      "learning_rate": 3.6502222222222226e-06,
+      "loss": 2.4752,
+      "step": 33575
+    },
+    {
+      "epoch": 0.672,
+      "grad_norm": 1.4559128373290389,
+      "learning_rate": 3.644666666666667e-06,
+      "loss": 2.4839,
+      "step": 33600
+    },
+    {
+      "epoch": 0.672,
+      "eval_loss": 2.480393648147583,
+      "eval_runtime": 43.6412,
+      "eval_samples_per_second": 2.383,
+      "eval_steps_per_second": 1.192,
+      "step": 33600
+    },
+    {
+      "epoch": 0.6725,
+      "grad_norm": 1.532302660160229,
+      "learning_rate": 3.6391111111111114e-06,
+      "loss": 2.4842,
+      "step": 33625
+    },
+    {
+      "epoch": 0.673,
+      "grad_norm": 1.8197828444753166,
+      "learning_rate": 3.633555555555556e-06,
+      "loss": 2.4769,
+      "step": 33650
+    },
+    {
+      "epoch": 0.6735,
+      "grad_norm": 1.5577840126586067,
+      "learning_rate": 3.6280000000000002e-06,
+      "loss": 2.4755,
+      "step": 33675
+    },
+    {
+      "epoch": 0.674,
+      "grad_norm": 1.8234890351489574,
+      "learning_rate": 3.6224444444444447e-06,
+      "loss": 2.4763,
+      "step": 33700
+    },
+    {
+      "epoch": 0.674,
+      "eval_loss": 2.480318546295166,
+      "eval_runtime": 42.0675,
+      "eval_samples_per_second": 2.472,
+      "eval_steps_per_second": 1.236,
+      "step": 33700
+    },
+    {
+      "epoch": 0.6745,
+      "grad_norm": 1.580558693036695,
+      "learning_rate": 3.616888888888889e-06,
+      "loss": 2.4674,
+      "step": 33725
+    },
+    {
+      "epoch": 0.675,
+      "grad_norm": 1.8364115704619381,
+      "learning_rate": 3.6113333333333335e-06,
+      "loss": 2.468,
+      "step": 33750
+    },
+    {
+      "epoch": 0.6755,
+      "grad_norm": 1.441698909778923,
+      "learning_rate": 3.605777777777778e-06,
+      "loss": 2.4705,
+      "step": 33775
+    },
+    {
+      "epoch": 0.676,
+      "grad_norm": 1.6076672764771844,
+      "learning_rate": 3.6002222222222227e-06,
+      "loss": 2.4667,
+      "step": 33800
+    },
+    {
+      "epoch": 0.676,
+      "eval_loss": 2.480243444442749,
+      "eval_runtime": 42.1706,
+      "eval_samples_per_second": 2.466,
+      "eval_steps_per_second": 1.233,
+      "step": 33800
+    },
+    {
+      "epoch": 0.6765,
+      "grad_norm": 1.449175055825869,
+      "learning_rate": 3.5946666666666667e-06,
+      "loss": 2.4666,
+      "step": 33825
+    },
+    {
+      "epoch": 0.677,
+      "grad_norm": 1.3909591726588006,
+      "learning_rate": 3.5891111111111115e-06,
+      "loss": 2.4654,
+      "step": 33850
+    },
+    {
+      "epoch": 0.6775,
+      "grad_norm": 2.238175776696452,
+      "learning_rate": 3.5835555555555555e-06,
+      "loss": 2.4774,
+      "step": 33875
+    },
+    {
+      "epoch": 0.678,
+      "grad_norm": 1.4514072202089707,
+      "learning_rate": 3.5780000000000003e-06,
+      "loss": 2.4641,
+      "step": 33900
+    },
+    {
+      "epoch": 0.678,
+      "eval_loss": 2.480393648147583,
+      "eval_runtime": 42.0258,
+      "eval_samples_per_second": 2.475,
+      "eval_steps_per_second": 1.237,
+      "step": 33900
+    },
+    {
+      "epoch": 0.6785,
+      "grad_norm": 1.5826502787680072,
+      "learning_rate": 3.5724444444444443e-06,
+      "loss": 2.4659,
+      "step": 33925
+    },
+    {
+      "epoch": 0.679,
+      "grad_norm": 1.6232233026873348,
+      "learning_rate": 3.566888888888889e-06,
+      "loss": 2.4767,
+      "step": 33950
+    },
+    {
+      "epoch": 0.6795,
+      "grad_norm": 1.4754806955160604,
+      "learning_rate": 3.561333333333334e-06,
+      "loss": 2.4734,
+      "step": 33975
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 1.605195867452613,
+      "learning_rate": 3.555777777777778e-06,
+      "loss": 2.4667,
+      "step": 34000
+    },
+    {
+      "epoch": 0.68,
+      "eval_loss": 2.479717493057251,
+      "eval_runtime": 42.0643,
+      "eval_samples_per_second": 2.472,
+      "eval_steps_per_second": 1.236,
+      "step": 34000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 7.630345833004243e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null