Upload folder using huggingface_hub

Browse files

Files changed (10) hide show

.gitattributes +1 -0
checkpoints-v5.8/checkpoint-10240/ema.safetensors +3 -0
checkpoints-v5.8/checkpoint-10240/eval_state.json +3 -0
checkpoints-v5.8/checkpoint-10240/model.safetensors +3 -0
checkpoints-v5.8/checkpoint-10240/optimizer.pt +3 -0
checkpoints-v5.8/checkpoint-10240/rng_state.pth +3 -0
checkpoints-v5.8/checkpoint-10240/scaler.pt +3 -0
checkpoints-v5.8/checkpoint-10240/scheduler.pt +3 -0
checkpoints-v5.8/checkpoint-10240/trainer_state.json +414 -0
checkpoints-v5.8/checkpoint-10240/training_args.bin +3 -0

.gitattributes CHANGED Viewed

@@ -45,3 +45,4 @@ checkpoints-v5.5/checkpoint-24576/eval_state.json filter=lfs diff=lfs merge=lfs
 checkpoints-v5.6/checkpoint-4096/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v5.6/checkpoint-14336/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v5.7/checkpoint-11264/eval_state.json filter=lfs diff=lfs merge=lfs -text

 checkpoints-v5.6/checkpoint-4096/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v5.6/checkpoint-14336/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v5.7/checkpoint-11264/eval_state.json filter=lfs diff=lfs merge=lfs -text
+checkpoints-v5.8/checkpoint-10240/eval_state.json filter=lfs diff=lfs merge=lfs -text

checkpoints-v5.8/checkpoint-10240/ema.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e999a0151447deb2f736e37a5ea04fe7417f37792d807827cbeac852e7cad9f3
+size 54599592

checkpoints-v5.8/checkpoint-10240/eval_state.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ab41d03aa2541e58672163e22db14aa05837338133c1c6f19ca09d6190f94f1c
+size 57900436

checkpoints-v5.8/checkpoint-10240/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8a262ca2a251444e555cdcec380059f77bbd36743b8a6ee6e4649d0ce1ec5431
+size 54599624

checkpoints-v5.8/checkpoint-10240/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a0bd7903cd37f51e5c8188658d72987fe1e143785181620bb0c348e69ae0c332
+size 76550347

checkpoints-v5.8/checkpoint-10240/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1fc9a7ad80ccf79ec63508fe00c62cf70deaf89caf3ca329a532d3f0b214151c
+size 14645

checkpoints-v5.8/checkpoint-10240/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2edeacbafdc9b000fdfcc7b5e26dfdbd488cc1c079462aca0d777eefd7a4f8d4
+size 1383

checkpoints-v5.8/checkpoint-10240/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0bc2da087d3bab042e131d5d0e0bdf1c5605ed7c07cd742ecbf80250f6aa7442
+size 1465

checkpoints-v5.8/checkpoint-10240/trainer_state.json ADDED Viewed

	@@ -0,0 +1,414 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.44131273299286744,
+  "eval_steps": 1024,
+  "global_step": 10240,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.04413127329928675,
+      "grad_norm": 2.8057446479797363,
+      "learning_rate": 9.990234375e-05,
+      "loss": 19.480113983154297,
+      "step": 1024
+    },
+    {
+      "epoch": 0.04413127329928675,
+      "eval_bleu": 0.15342690122492753,
+      "eval_ce_clean_loss": 2.2290129910654097,
+      "eval_ce_pred_loss": 4.926800312009702,
+      "eval_flow_cos_loss": 0.4851009784095577,
+      "eval_flow_mse_loss": 1.397121523743245,
+      "eval_loss": 11.836170995667546,
+      "flow/cos_sim": 0.5148990369681865,
+      "flow/improvement_ratio": 0.9246285279422427,
+      "flow/mag_ratio_mean": 0.013031711470264235,
+      "flow/mag_ratio_std": 0.006753856040187863,
+      "step": 1024
+    },
+    {
+      "epoch": 0.04413127329928675,
+      "eval_bleu": 0.15342690122492753,
+      "eval_ce_clean_loss": 2.2290129910654097,
+      "eval_ce_pred_loss": 4.926800312009702,
+      "eval_flow_cos_loss": 0.4851009784095577,
+      "eval_flow_mse_loss": 1.397121523743245,
+      "eval_loss": 11.836170995667546,
+      "eval_runtime": 207.3627,
+      "eval_samples_per_second": 144.674,
+      "eval_steps_per_second": 2.262,
+      "flow/cos_sim": 0.5148990369681865,
+      "flow/improvement_ratio": 0.9246285279422427,
+      "flow/mag_ratio_mean": 0.013031711470264235,
+      "flow/mag_ratio_std": 0.006753856040187863,
+      "step": 1024
+    },
+    {
+      "epoch": 0.0882625465985735,
+      "grad_norm": 3.7640140056610107,
+      "learning_rate": 9.947705025097448e-05,
+      "loss": 9.050005912780762,
+      "step": 2048
+    },
+    {
+      "epoch": 0.0882625465985735,
+      "eval_bleu": 0.3591161016860251,
+      "eval_ce_clean_loss": 0.5261886228503448,
+      "eval_ce_pred_loss": 3.2509129626918702,
+      "eval_flow_cos_loss": 0.444934548663178,
+      "eval_flow_mse_loss": 1.3912561704863364,
+      "eval_loss": 7.600675975335941,
+      "flow/cos_sim": 0.5550654290327385,
+      "flow/improvement_ratio": 0.9916605481715091,
+      "flow/mag_ratio_mean": 0.4833370310538359,
+      "flow/mag_ratio_std": 0.13753852689825397,
+      "step": 2048
+    },
+    {
+      "epoch": 0.0882625465985735,
+      "eval_bleu": 0.3591161016860251,
+      "eval_ce_clean_loss": 0.5261886228503448,
+      "eval_ce_pred_loss": 3.2509129626918702,
+      "eval_flow_cos_loss": 0.444934548663178,
+      "eval_flow_mse_loss": 1.3912561704863364,
+      "eval_loss": 7.600675975335941,
+      "eval_runtime": 202.3015,
+      "eval_samples_per_second": 148.293,
+      "eval_steps_per_second": 2.318,
+      "flow/cos_sim": 0.5550654290327385,
+      "flow/improvement_ratio": 0.9916605481715091,
+      "flow/mag_ratio_mean": 0.4833370310538359,
+      "flow/mag_ratio_std": 0.13753852689825397,
+      "step": 2048
+    },
+    {
+      "epoch": 0.13239381989786023,
+      "grad_norm": 2.177398681640625,
+      "learning_rate": 9.7915094488941e-05,
+      "loss": 7.1016950607299805,
+      "step": 3072
+    },
+    {
+      "epoch": 0.13239381989786023,
+      "eval_bleu": 0.4229786990281486,
+      "eval_ce_clean_loss": 0.19955731540727717,
+      "eval_ce_pred_loss": 2.75210454392789,
+      "eval_flow_cos_loss": 0.3368307453737076,
+      "eval_flow_mse_loss": 1.455592979246111,
+      "eval_loss": 6.595311283811069,
+      "flow/cos_sim": 0.663169250559451,
+      "flow/improvement_ratio": 0.9943748110138786,
+      "flow/mag_ratio_mean": 0.6215583990886013,
+      "flow/mag_ratio_std": 0.13196718303570107,
+      "step": 3072
+    },
+    {
+      "epoch": 0.13239381989786023,
+      "eval_bleu": 0.4229786990281486,
+      "eval_ce_clean_loss": 0.19955731540727717,
+      "eval_ce_pred_loss": 2.75210454392789,
+      "eval_flow_cos_loss": 0.3368307453737076,
+      "eval_flow_mse_loss": 1.455592979246111,
+      "eval_loss": 6.595311283811069,
+      "eval_runtime": 203.4697,
+      "eval_samples_per_second": 147.442,
+      "eval_steps_per_second": 2.305,
+      "flow/cos_sim": 0.663169250559451,
+      "flow/improvement_ratio": 0.9943748110138786,
+      "flow/mag_ratio_mean": 0.6215583990886013,
+      "flow/mag_ratio_std": 0.13196718303570107,
+      "step": 3072
+    },
+    {
+      "epoch": 0.176525093197147,
+      "grad_norm": 1.7163344621658325,
+      "learning_rate": 9.534693146185996e-05,
+      "loss": 6.385639667510986,
+      "step": 4096
+    },
+    {
+      "epoch": 0.176525093197147,
+      "eval_bleu": 0.4513643743621062,
+      "eval_ce_clean_loss": 0.10498536713341915,
+      "eval_ce_pred_loss": 2.5130718211883676,
+      "eval_flow_cos_loss": 0.2594938945414415,
+      "eval_flow_mse_loss": 1.4369017711834613,
+      "eval_loss": 6.09481920819801,
+      "flow/cos_sim": 0.7405061316388503,
+      "flow/improvement_ratio": 0.9943584953543982,
+      "flow/mag_ratio_mean": 0.7165890200051672,
+      "flow/mag_ratio_std": 0.12281975911052496,
+      "step": 4096
+    },
+    {
+      "epoch": 0.176525093197147,
+      "eval_bleu": 0.4513643743621062,
+      "eval_ce_clean_loss": 0.10498536713341915,
+      "eval_ce_pred_loss": 2.5130718211883676,
+      "eval_flow_cos_loss": 0.2594938945414415,
+      "eval_flow_mse_loss": 1.4369017711834613,
+      "eval_loss": 6.09481920819801,
+      "eval_runtime": 204.2952,
+      "eval_samples_per_second": 146.846,
+      "eval_steps_per_second": 2.296,
+      "flow/cos_sim": 0.7405061316388503,
+      "flow/improvement_ratio": 0.9943584953543982,
+      "flow/mag_ratio_mean": 0.7165890200051672,
+      "flow/mag_ratio_std": 0.12281975911052496,
+      "step": 4096
+    },
+    {
+      "epoch": 0.22065636649643372,
+      "grad_norm": 1.8768128156661987,
+      "learning_rate": 9.18264920723673e-05,
+      "loss": 6.064126491546631,
+      "step": 5120
+    },
+    {
+      "epoch": 0.22065636649643372,
+      "eval_bleu": 0.4614809350663718,
+      "eval_ce_clean_loss": 0.0667420147832777,
+      "eval_ce_pred_loss": 2.3907921583667746,
+      "eval_flow_cos_loss": 0.21185589446696138,
+      "eval_flow_mse_loss": 1.4259319119870282,
+      "eval_loss": 5.844792096599587,
+      "flow/cos_sim": 0.7881441263756009,
+      "flow/improvement_ratio": 0.9946798176399426,
+      "flow/mag_ratio_mean": 0.7737196202217135,
+      "flow/mag_ratio_std": 0.12071893823299326,
+      "step": 5120
+    },
+    {
+      "epoch": 0.22065636649643372,
+      "eval_bleu": 0.4614809350663718,
+      "eval_ce_clean_loss": 0.0667420147832777,
+      "eval_ce_pred_loss": 2.3907921583667746,
+      "eval_flow_cos_loss": 0.21185589446696138,
+      "eval_flow_mse_loss": 1.4259319119870282,
+      "eval_loss": 5.844792096599587,
+      "eval_runtime": 205.8254,
+      "eval_samples_per_second": 145.755,
+      "eval_steps_per_second": 2.279,
+      "flow/cos_sim": 0.7881441263756009,
+      "flow/improvement_ratio": 0.9946798176399426,
+      "flow/mag_ratio_mean": 0.7737196202217135,
+      "flow/mag_ratio_std": 0.12071893823299326,
+      "step": 5120
+    },
+    {
+      "epoch": 0.26478763979572045,
+      "grad_norm": 2.758634328842163,
+      "learning_rate": 8.74324003722993e-05,
+      "loss": 5.889730930328369,
+      "step": 6144
+    },
+    {
+      "epoch": 0.26478763979572045,
+      "eval_bleu": 0.4845742868272886,
+      "eval_ce_clean_loss": 0.04714409711121369,
+      "eval_ce_pred_loss": 2.2815945768661337,
+      "eval_flow_cos_loss": 0.18578982953705006,
+      "eval_flow_mse_loss": 1.4454534775666845,
+      "eval_loss": 5.6841636202228605,
+      "flow/cos_sim": 0.8142101938790604,
+      "flow/improvement_ratio": 0.9944394338868066,
+      "flow/mag_ratio_mean": 0.8032813853800678,
+      "flow/mag_ratio_std": 0.12197709971590083,
+      "step": 6144
+    },
+    {
+      "epoch": 0.26478763979572045,
+      "eval_bleu": 0.4845742868272886,
+      "eval_ce_clean_loss": 0.04714409711121369,
+      "eval_ce_pred_loss": 2.2815945768661337,
+      "eval_flow_cos_loss": 0.18578982953705006,
+      "eval_flow_mse_loss": 1.4454534775666845,
+      "eval_loss": 5.6841636202228605,
+      "eval_runtime": 206.3829,
+      "eval_samples_per_second": 145.361,
+      "eval_steps_per_second": 2.272,
+      "flow/cos_sim": 0.8142101938790604,
+      "flow/improvement_ratio": 0.9944394338868066,
+      "flow/mag_ratio_mean": 0.8032813853800678,
+      "flow/mag_ratio_std": 0.12197709971590083,
+      "step": 6144
+    },
+    {
+      "epoch": 0.30891891309500724,
+      "grad_norm": 5.409186363220215,
+      "learning_rate": 8.22483558761947e-05,
+      "loss": 5.709588527679443,
+      "step": 7168
+    },
+    {
+      "epoch": 0.30891891309500724,
+      "eval_bleu": 0.4929805768795461,
+      "eval_ce_clean_loss": 0.03396684316191465,
+      "eval_ce_pred_loss": 2.2168381203974743,
+      "eval_flow_cos_loss": 0.16666441371064705,
+      "eval_flow_mse_loss": 1.4314661895288334,
+      "eval_loss": 5.548089429005377,
+      "flow/cos_sim": 0.8333356131368609,
+      "flow/improvement_ratio": 0.9955934001438653,
+      "flow/mag_ratio_mean": 0.8248435496521402,
+      "flow/mag_ratio_std": 0.12081558916614508,
+      "step": 7168
+    },
+    {
+      "epoch": 0.30891891309500724,
+      "eval_bleu": 0.4929805768795461,
+      "eval_ce_clean_loss": 0.03396684316191465,
+      "eval_ce_pred_loss": 2.2168381203974743,
+      "eval_flow_cos_loss": 0.16666441371064705,
+      "eval_flow_mse_loss": 1.4314661895288334,
+      "eval_loss": 5.548089429005377,
+      "eval_runtime": 204.7605,
+      "eval_samples_per_second": 146.513,
+      "eval_steps_per_second": 2.29,
+      "flow/cos_sim": 0.8333356131368609,
+      "flow/improvement_ratio": 0.9955934001438653,
+      "flow/mag_ratio_mean": 0.8248435496521402,
+      "flow/mag_ratio_std": 0.12081558916614508,
+      "step": 7168
+    },
+    {
+      "epoch": 0.353050186394294,
+      "grad_norm": 3.4768965244293213,
+      "learning_rate": 7.639311770076283e-05,
+      "loss": 5.6106743812561035,
+      "step": 8192
+    },
+    {
+      "epoch": 0.353050186394294,
+      "eval_bleu": 0.5000895464260023,
+      "eval_ce_clean_loss": 0.026072347614127817,
+      "eval_ce_pred_loss": 2.172668118212523,
+      "eval_flow_cos_loss": 0.15404865479291374,
+      "eval_flow_mse_loss": 1.433172311101641,
+      "eval_loss": 5.4733451587050705,
+      "flow/cos_sim": 0.8459513680512971,
+      "flow/improvement_ratio": 0.9947214378222727,
+      "flow/mag_ratio_mean": 0.8395651439105524,
+      "flow/mag_ratio_std": 0.12124867371912958,
+      "step": 8192
+    },
+    {
+      "epoch": 0.353050186394294,
+      "eval_bleu": 0.5000895464260023,
+      "eval_ce_clean_loss": 0.026072347614127817,
+      "eval_ce_pred_loss": 2.172668118212523,
+      "eval_flow_cos_loss": 0.15404865479291374,
+      "eval_flow_mse_loss": 1.433172311101641,
+      "eval_loss": 5.4733451587050705,
+      "eval_runtime": 205.5563,
+      "eval_samples_per_second": 145.945,
+      "eval_steps_per_second": 2.282,
+      "flow/cos_sim": 0.8459513680512971,
+      "flow/improvement_ratio": 0.9947214378222727,
+      "flow/mag_ratio_mean": 0.8395651439105524,
+      "flow/mag_ratio_std": 0.12124867371912958,
+      "step": 8192
+    },
+    {
+      "epoch": 0.3971814596935807,
+      "grad_norm": 2.03994083404541,
+      "learning_rate": 6.997821756319211e-05,
+      "loss": 5.528759956359863,
+      "step": 9216
+    },
+    {
+      "epoch": 0.3971814596935807,
+      "eval_bleu": 0.5061985839044346,
+      "eval_ce_clean_loss": 0.020625252342189173,
+      "eval_ce_pred_loss": 2.0967261576449183,
+      "eval_flow_cos_loss": 0.1426173726092778,
+      "eval_flow_mse_loss": 1.4152808268187143,
+      "eval_loss": 5.324290069689883,
+      "flow/cos_sim": 0.8573826374783953,
+      "flow/improvement_ratio": 0.9952330511770269,
+      "flow/mag_ratio_mean": 0.8550254363240972,
+      "flow/mag_ratio_std": 0.12249722452496668,
+      "step": 9216
+    },
+    {
+      "epoch": 0.3971814596935807,
+      "eval_bleu": 0.5061985839044346,
+      "eval_ce_clean_loss": 0.020625252342189173,
+      "eval_ce_pred_loss": 2.0967261576449183,
+      "eval_flow_cos_loss": 0.1426173726092778,
+      "eval_flow_mse_loss": 1.4152808268187143,
+      "eval_loss": 5.324290069689883,
+      "eval_runtime": 204.3393,
+      "eval_samples_per_second": 146.815,
+      "eval_steps_per_second": 2.295,
+      "flow/cos_sim": 0.8573826374783953,
+      "flow/improvement_ratio": 0.9952330511770269,
+      "flow/mag_ratio_mean": 0.8550254363240972,
+      "flow/mag_ratio_std": 0.12249722452496668,
+      "step": 9216
+    },
+    {
+      "epoch": 0.44131273299286744,
+      "grad_norm": 3.8528435230255127,
+      "learning_rate": 6.315061173955019e-05,
+      "loss": 5.434952259063721,
+      "step": 10240
+    },
+    {
+      "epoch": 0.44131273299286744,
+      "eval_bleu": 0.509362067123535,
+      "eval_ce_clean_loss": 0.016885403623141206,
+      "eval_ce_pred_loss": 2.091463715282839,
+      "eval_flow_cos_loss": 0.13576125987430118,
+      "eval_flow_mse_loss": 1.4116799185779303,
+      "eval_loss": 5.305541175260727,
+      "flow/cos_sim": 0.864238769896249,
+      "flow/improvement_ratio": 0.9957862627277496,
+      "flow/mag_ratio_mean": 0.8612959158700159,
+      "flow/mag_ratio_std": 0.12316946316756673,
+      "step": 10240
+    },
+    {
+      "epoch": 0.44131273299286744,
+      "eval_bleu": 0.509362067123535,
+      "eval_ce_clean_loss": 0.016885403623141206,
+      "eval_ce_pred_loss": 2.091463715282839,
+      "eval_flow_cos_loss": 0.13576125987430118,
+      "eval_flow_mse_loss": 1.4116799185779303,
+      "eval_loss": 5.305541175260727,
+      "eval_runtime": 204.1554,
+      "eval_samples_per_second": 146.947,
+      "eval_steps_per_second": 2.297,
+      "flow/cos_sim": 0.864238769896249,
+      "flow/improvement_ratio": 0.9957862627277496,
+      "flow/mag_ratio_mean": 0.8612959158700159,
+      "flow/mag_ratio_std": 0.12316946316756673,
+      "step": 10240
+    }
+  ],
+  "logging_steps": 1024,
+  "max_steps": 23204,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 1024,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints-v5.8/checkpoint-10240/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8469bbc81a2ba0be2f5b44007faafd15c75615abe30f4f4e56171816d31caa5b
+size 5137