Training in progress, epoch 1, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +14 -88
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f4488cbc56499a0fd5a6541431111a9dfd93133d037941f061e0b46133fb4a5a
 size 437958624

 version https://git-lfs.github.com/spec/v1
+oid sha256:1a2e34018327439bd68c02f0672eaeafee3606887a581e0c6415dd24446b1f34
 size 437958624

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6df815422d05de057db5f09faffcbabac714e2a453917053fd9ff048f0b2aa54
-size 15597

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f5d22a235930e2c29bda06919eee14e9df56f4d9eace1bf3b1736ecf8212ea7
+size 4741923

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0bcbaa2aabec41ab6ddbecc0bb29c7ea2c5176ca5f2b9b4caa2a00b191411de1
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:2fb7e7f0e32311ea4a34bdd12b1dc8ec66d46164a59b314eea8415d8682591cf
 size 14645

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:34ea89449ac93a3391a38a417e2dd400eff8832c6d069777a257c68b16d10335
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:8457a345e0d53a37b5f1ebb6db1120270f6a7f4b99a871d4acda8980a58382cc
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3fbd75b8ebb26bc9af4014ad504a07ec158976c6e00388b7f420c4414a2d5005
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:ef3af56a55052e98aa5beb6c4c90cc3520c9d76d06c8b7bd66364a88c166c795
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,102 +1,28 @@
 {
-  "best_global_step": 3910,
-  "best_metric": 1.284986972808838,
-  "best_model_checkpoint": "./bert-imdb-cp/checkpoint-3910",
-  "epoch": 5.0,
   "eval_steps": 500,
-  "global_step": 3910,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.639386189258312,
-      "grad_norm": 3.338480234146118,
-      "learning_rate": 1.7447570332480818e-05,
-      "loss": 1.374810546875,
       "step": 500
     },
     {
       "epoch": 1.0,
-      "eval_loss": 1.3370563983917236,
-      "eval_runtime": 470.9034,
-      "eval_samples_per_second": 53.089,
-      "eval_steps_per_second": 1.661,
       "step": 782
-    },
-    {
-      "epoch": 1.278772378516624,
-      "grad_norm": 1.7996962070465088,
-      "learning_rate": 1.489002557544757e-05,
-      "loss": 1.3492745361328125,
-      "step": 1000
-    },
-    {
-      "epoch": 1.918158567774936,
-      "grad_norm": 8.485663414001465,
-      "learning_rate": 1.2332480818414323e-05,
-      "loss": 1.33461083984375,
-      "step": 1500
-    },
-    {
-      "epoch": 2.0,
-      "eval_loss": 1.3118603229522705,
-      "eval_runtime": 470.0542,
-      "eval_samples_per_second": 53.185,
-      "eval_steps_per_second": 1.664,
-      "step": 1564
-    },
-    {
-      "epoch": 2.557544757033248,
-      "grad_norm": 3.0998706817626953,
-      "learning_rate": 9.774936061381075e-06,
-      "loss": 1.3203563232421875,
-      "step": 2000
-    },
-    {
-      "epoch": 3.0,
-      "eval_loss": 1.296446681022644,
-      "eval_runtime": 470.8225,
-      "eval_samples_per_second": 53.099,
-      "eval_steps_per_second": 1.661,
-      "step": 2346
-    },
-    {
-      "epoch": 3.1969309462915603,
-      "grad_norm": 5.162097454071045,
-      "learning_rate": 7.217391304347827e-06,
-      "loss": 1.3065758056640624,
-      "step": 2500
-    },
-    {
-      "epoch": 3.836317135549872,
-      "grad_norm": 6.115355491638184,
-      "learning_rate": 4.659846547314578e-06,
-      "loss": 1.3031380615234376,
-      "step": 3000
-    },
-    {
-      "epoch": 4.0,
-      "eval_loss": 1.287236213684082,
-      "eval_runtime": 470.4081,
-      "eval_samples_per_second": 53.145,
-      "eval_steps_per_second": 1.662,
-      "step": 3128
-    },
-    {
-      "epoch": 4.475703324808184,
-      "grad_norm": 2.687530755996704,
-      "learning_rate": 2.10230179028133e-06,
-      "loss": 1.2987099609375,
-      "step": 3500
-    },
-    {
-      "epoch": 5.0,
-      "eval_loss": 1.284986972808838,
-      "eval_runtime": 470.8474,
-      "eval_samples_per_second": 53.096,
-      "eval_steps_per_second": 1.661,
-      "step": 3910
     }
   ],
   "logging_steps": 500,
@@ -111,12 +37,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": true
       },
       "attributes": {}
     }
   },
-  "total_flos": 3.287503158960144e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 782,
+  "best_metric": 1.0078198909759521,
+  "best_model_checkpoint": "./bert-imdb-cp/checkpoint-782",
+  "epoch": 1.0,
   "eval_steps": 500,
+  "global_step": 782,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.639386189258312,
+      "grad_norm": 2.5200116634368896,
+      "learning_rate": 8.723785166240409e-06,
+      "loss": 1.263746337890625,
       "step": 500
     },
     {
       "epoch": 1.0,
+      "eval_loss": 1.0078198909759521,
+      "eval_runtime": 448.448,
+      "eval_samples_per_second": 55.748,
+      "eval_steps_per_second": 1.744,
       "step": 782
     }
   ],
   "logging_steps": 500,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": false
       },
       "attributes": {}
     }
   },
+  "total_flos": 6575737273320960.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3efe3b88791da124abe68a3d5201ca5d762d3f8f30b2bdebb5050a9036093793
 size 5201

 version https://git-lfs.github.com/spec/v1
+oid sha256:1107345434efc608151ecaa36a5f772158c66da373d39ab11cc42f09d2bcbda3
 size 5201