Training in progress, epoch 1, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_config.json +5 -5
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +30 -37
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -20,13 +20,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "v_proj",
-    "up_proj",
-    "k_proj",
-    "gate_proj",
     "q_proj",
     "o_proj",
-    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "q_proj",
+    "k_proj",
+    "v_proj",
+    "down_proj",
     "o_proj",
+    "gate_proj",
+    "up_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f8a26400f02bacfd74ee8b49a7c90fadb1a72080eb2518955295d9693a694224
 size 69527352

 version https://git-lfs.github.com/spec/v1
+oid sha256:22706b121f81bb296584c212eb888c0d72ecebc2f8542002ac3cd8e0a117af64
 size 69527352

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a7a5f82506037604163acd2fee5f625ca7163cb766404a233c449f458eb1b8db
 size 35778900

 version https://git-lfs.github.com/spec/v1
+oid sha256:e74596b69fb137171bbd17a48936c71902b0da20b069cc7ab29696a7dbb0158c
 size 35778900

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a42bd36c0f9a8fadfb871d460063ae3fa111f4dddc808f3268062fb12d6edec2
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f08c0df86b91ccc3d76337c061c328c32352c965a142af309382269ddc79a40b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d040e6e1204973e0da14b16b2c6719d0f9bf30c7c451a2db740a44e5309c31c3
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:bcf348532606e290f3cddebc7f00005cce6f05bb1cced2bad1d4a15482755657
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,92 +1,85 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0899182561307903,
   "eval_steps": 134,
-  "global_step": 400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0027247956403269754,
-      "eval_loss": 3.2025532722473145,
-      "eval_runtime": 8.7865,
-      "eval_samples_per_second": 35.168,
-      "eval_steps_per_second": 8.877,
       "step": 1
     },
     {
       "epoch": 0.1362397820163488,
-      "grad_norm": 0.8217579126358032,
       "learning_rate": 0.0004,
-      "loss": 1.3909,
       "step": 50
     },
     {
       "epoch": 0.2724795640326976,
-      "grad_norm": 0.5776450634002686,
       "learning_rate": 0.0004,
-      "loss": 0.8498,
       "step": 100
     },
     {
       "epoch": 0.3651226158038147,
-      "eval_loss": 0.6123294234275818,
-      "eval_runtime": 8.6305,
-      "eval_samples_per_second": 35.803,
-      "eval_steps_per_second": 9.038,
       "step": 134
     },
     {
       "epoch": 0.4087193460490463,
-      "grad_norm": 0.7184346318244934,
       "learning_rate": 0.0004,
-      "loss": 0.6462,
       "step": 150
     },
     {
       "epoch": 0.5449591280653951,
-      "grad_norm": 0.9781283736228943,
       "learning_rate": 0.0004,
-      "loss": 0.5408,
       "step": 200
     },
     {
       "epoch": 0.6811989100817438,
-      "grad_norm": 0.5606921315193176,
       "learning_rate": 0.0004,
-      "loss": 0.4235,
       "step": 250
     },
     {
       "epoch": 0.7302452316076294,
-      "eval_loss": 0.3998368978500366,
-      "eval_runtime": 4.2414,
-      "eval_samples_per_second": 72.854,
-      "eval_steps_per_second": 18.39,
       "step": 268
     },
     {
       "epoch": 0.8174386920980926,
-      "grad_norm": 0.31943920254707336,
       "learning_rate": 0.0004,
-      "loss": 0.366,
       "step": 300
     },
     {
       "epoch": 0.9536784741144414,
-      "grad_norm": 0.44990459084510803,
       "learning_rate": 0.0004,
-      "loss": 0.295,
       "step": 350
-    },
-    {
-      "epoch": 1.0899182561307903,
-      "grad_norm": 0.21941453218460083,
-      "learning_rate": 0.0004,
-      "loss": 0.2775,
-      "step": 400
     }
   ],
   "logging_steps": 50,
@@ -101,12 +94,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": true
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.297020667723776e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0,
   "eval_steps": 134,
+  "global_step": 367,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0027247956403269754,
+      "eval_loss": 3.203904390335083,
+      "eval_runtime": 4.2695,
+      "eval_samples_per_second": 72.375,
+      "eval_steps_per_second": 18.269,
       "step": 1
     },
     {
       "epoch": 0.1362397820163488,
+      "grad_norm": 0.7537987232208252,
       "learning_rate": 0.0004,
+      "loss": 1.3941,
       "step": 50
     },
     {
       "epoch": 0.2724795640326976,
+      "grad_norm": 0.5926509499549866,
       "learning_rate": 0.0004,
+      "loss": 0.8495,
       "step": 100
     },
     {
       "epoch": 0.3651226158038147,
+      "eval_loss": 0.6168258190155029,
+      "eval_runtime": 4.2281,
+      "eval_samples_per_second": 73.082,
+      "eval_steps_per_second": 18.448,
       "step": 134
     },
     {
       "epoch": 0.4087193460490463,
+      "grad_norm": 0.7156445384025574,
       "learning_rate": 0.0004,
+      "loss": 0.6471,
       "step": 150
     },
     {
       "epoch": 0.5449591280653951,
+      "grad_norm": 0.9673421382904053,
       "learning_rate": 0.0004,
+      "loss": 0.5422,
       "step": 200
     },
     {
       "epoch": 0.6811989100817438,
+      "grad_norm": 0.6035718321800232,
       "learning_rate": 0.0004,
+      "loss": 0.4256,
       "step": 250
     },
     {
       "epoch": 0.7302452316076294,
+      "eval_loss": 0.4029657542705536,
+      "eval_runtime": 4.2417,
+      "eval_samples_per_second": 72.848,
+      "eval_steps_per_second": 18.389,
       "step": 268
     },
     {
       "epoch": 0.8174386920980926,
+      "grad_norm": 0.5255013704299927,
       "learning_rate": 0.0004,
+      "loss": 0.3641,
       "step": 300
     },
     {
       "epoch": 0.9536784741144414,
+      "grad_norm": 0.41406139731407166,
       "learning_rate": 0.0004,
+      "loss": 0.2957,
       "step": 350
     }
   ],
   "logging_steps": 50,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": false
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.189318078660608e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8e53c057403e5611359609e457af2c9b642379f9797df9487b9ae467b559c71a
 size 6776

 version https://git-lfs.github.com/spec/v1
+oid sha256:af5f04a654a3e0383a63c452ad764d1c521231acb0b65503a2aa1b6747f36b89
 size 6776