Upload folder using huggingface_hub

Browse files

Files changed (10) hide show

.gitattributes +1 -0
checkpoints-v5.14-b/checkpoint-11264/ema.safetensors +3 -0
checkpoints-v5.14-b/checkpoint-11264/eval_state.json +3 -0
checkpoints-v5.14-b/checkpoint-11264/model.safetensors +3 -0
checkpoints-v5.14-b/checkpoint-11264/optimizer.pt +3 -0
checkpoints-v5.14-b/checkpoint-11264/rng_state.pth +3 -0
checkpoints-v5.14-b/checkpoint-11264/scaler.pt +3 -0
checkpoints-v5.14-b/checkpoint-11264/scheduler.pt +3 -0
checkpoints-v5.14-b/checkpoint-11264/trainer_state.json +430 -0
checkpoints-v5.14-b/checkpoint-11264/training_args.bin +3 -0

.gitattributes CHANGED Viewed

@@ -69,3 +69,4 @@ checkpoints-v4.6++/checkpoint-2048/eval_state.json filter=lfs diff=lfs merge=lfs
 checkpoints-v5.14/checkpoint-21504/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v4.6++/checkpoint-16384/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v4.6++/checkpoint-21504/eval_state.json filter=lfs diff=lfs merge=lfs -text

 checkpoints-v5.14/checkpoint-21504/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v4.6++/checkpoint-16384/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v4.6++/checkpoint-21504/eval_state.json filter=lfs diff=lfs merge=lfs -text
+checkpoints-v5.14-b/checkpoint-11264/eval_state.json filter=lfs diff=lfs merge=lfs -text

checkpoints-v5.14-b/checkpoint-11264/ema.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3b51fa89ae53848b02ac3041d9b806dfa97b47d532a49d272e6010ac8449e25f
+size 54599376

checkpoints-v5.14-b/checkpoint-11264/eval_state.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a6e4d11d156901571263fed8c3c5317e98b9cb4b31b35c976dccfb3c9e257313
+size 60398129

checkpoints-v5.14-b/checkpoint-11264/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:447937528d2e0f80378ebf3a80ef031e12ab7e3aae1ae150ee9f4f11e0d46a57
+size 54599408

checkpoints-v5.14-b/checkpoint-11264/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:085a81575aebdc67820509e94a9a8198410e642eadef113dfa7f3d7036773e22
+size 76550347

checkpoints-v5.14-b/checkpoint-11264/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:db58e1fa1043771ede7e059026a171217e359b9877ce2b1ad7350e695e5e52ca
+size 14645

checkpoints-v5.14-b/checkpoint-11264/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c2bc1deecadc15fe17bd4c226452ce66514bbebe4fb815dfbca959ed5b136b4e
+size 1383

checkpoints-v5.14-b/checkpoint-11264/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:21c700f8c7da85aa9d4c7cb7c4f2fe1f5cc1460165fd5b9ff6c072c94729a07e
+size 1465

checkpoints-v5.14-b/checkpoint-11264/trainer_state.json ADDED Viewed

	@@ -0,0 +1,430 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.4854440062921542,
+  "eval_steps": 1024,
+  "global_step": 11264,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.04413127329928675,
+      "grad_norm": 3.5038137435913086,
+      "learning_rate": 9.990234375e-05,
+      "loss": 6.057439804077148,
+      "step": 1024
+    },
+    {
+      "epoch": 0.04413127329928675,
+      "eval_bleu": 0.2426675221355373,
+      "eval_ce_clean_loss": 2.9316839322860817,
+      "eval_ce_pred_loss": 4.482480068450798,
+      "eval_flow_mse_loss": 0.6319804731716734,
+      "eval_loss": 3.3103087014480947,
+      "flow/cos_sim": 0.635355739705344,
+      "flow/improvement_ratio": 0.9764192818578626,
+      "flow/mag_ratio_mean": 0.5770339130846931,
+      "flow/mag_ratio_std": 0.14402958688769005,
+      "step": 1024
+    },
+    {
+      "epoch": 0.04413127329928675,
+      "eval_bleu": 0.2426675221355373,
+      "eval_ce_clean_loss": 2.9316839322860817,
+      "eval_ce_pred_loss": 4.482480068450798,
+      "eval_flow_mse_loss": 0.6319804731716734,
+      "eval_loss": 3.3103087014480947,
+      "eval_runtime": 208.0294,
+      "eval_samples_per_second": 144.21,
+      "eval_steps_per_second": 2.254,
+      "flow/cos_sim": 0.635355739705344,
+      "flow/improvement_ratio": 0.9764192818578626,
+      "flow/mag_ratio_mean": 0.5770339130846931,
+      "flow/mag_ratio_std": 0.14402958688769005,
+      "step": 1024
+    },
+    {
+      "epoch": 0.0882625465985735,
+      "grad_norm": 1.926490068435669,
+      "learning_rate": 9.9476028157316e-05,
+      "loss": 2.1645209789276123,
+      "step": 2048
+    },
+    {
+      "epoch": 0.0882625465985735,
+      "eval_bleu": 0.48220850181934927,
+      "eval_ce_clean_loss": 0.613176057969075,
+      "eval_ce_pred_loss": 2.3207095317494897,
+      "eval_flow_mse_loss": 0.4048997118020617,
+      "eval_loss": 1.378079512734403,
+      "flow/cos_sim": 0.7912600633940463,
+      "flow/improvement_ratio": 0.9882536935907945,
+      "flow/mag_ratio_mean": 0.7671358553585468,
+      "flow/mag_ratio_std": 0.1786356564523823,
+      "step": 2048
+    },
+    {
+      "epoch": 0.0882625465985735,
+      "eval_bleu": 0.48220850181934927,
+      "eval_ce_clean_loss": 0.613176057969075,
+      "eval_ce_pred_loss": 2.3207095317494897,
+      "eval_flow_mse_loss": 0.4048997118020617,
+      "eval_loss": 1.378079512734403,
+      "eval_runtime": 206.3397,
+      "eval_samples_per_second": 145.391,
+      "eval_steps_per_second": 2.273,
+      "flow/cos_sim": 0.7912600633940463,
+      "flow/improvement_ratio": 0.9882536935907945,
+      "flow/mag_ratio_mean": 0.7671358553585468,
+      "flow/mag_ratio_std": 0.1786356564523823,
+      "step": 2048
+    },
+    {
+      "epoch": 0.13239381989786023,
+      "grad_norm": 1.3207149505615234,
+      "learning_rate": 9.791307026072513e-05,
+      "loss": 1.138239860534668,
+      "step": 3072
+    },
+    {
+      "epoch": 0.13239381989786023,
+      "eval_bleu": 0.5707655489901116,
+      "eval_ce_clean_loss": 0.1664807415529609,
+      "eval_ce_pred_loss": 1.5110007490176383,
+      "eval_flow_mse_loss": 0.3588737631276218,
+      "eval_loss": 0.9237511695575104,
+      "flow/cos_sim": 0.8204902978594115,
+      "flow/improvement_ratio": 0.99233325928259,
+      "flow/mag_ratio_mean": 0.7965286766796478,
+      "flow/mag_ratio_std": 0.17134010836259642,
+      "step": 3072
+    },
+    {
+      "epoch": 0.13239381989786023,
+      "eval_bleu": 0.5707655489901116,
+      "eval_ce_clean_loss": 0.1664807415529609,
+      "eval_ce_pred_loss": 1.5110007490176383,
+      "eval_flow_mse_loss": 0.3588737631276218,
+      "eval_loss": 0.9237511695575104,
+      "eval_runtime": 207.5236,
+      "eval_samples_per_second": 144.562,
+      "eval_steps_per_second": 2.26,
+      "flow/cos_sim": 0.8204902978594115,
+      "flow/improvement_ratio": 0.99233325928259,
+      "flow/mag_ratio_mean": 0.7965286766796478,
+      "flow/mag_ratio_std": 0.17134010836259642,
+      "step": 3072
+    },
+    {
+      "epoch": 0.176525093197147,
+      "grad_norm": 0.8647923469543457,
+      "learning_rate": 9.53439476074686e-05,
+      "loss": 0.8891093730926514,
+      "step": 4096
+    },
+    {
+      "epoch": 0.176525093197147,
+      "eval_bleu": 0.602648493788286,
+      "eval_ce_clean_loss": 0.07902319778575063,
+      "eval_ce_pred_loss": 1.258515450491834,
+      "eval_flow_mse_loss": 0.3336726897942232,
+      "eval_loss": 0.7917237284341092,
+      "flow/cos_sim": 0.8359491508652661,
+      "flow/improvement_ratio": 0.9927860422175068,
+      "flow/mag_ratio_mean": 0.8206447137952614,
+      "flow/mag_ratio_std": 0.15771287044228266,
+      "step": 4096
+    },
+    {
+      "epoch": 0.176525093197147,
+      "eval_bleu": 0.602648493788286,
+      "eval_ce_clean_loss": 0.07902319778575063,
+      "eval_ce_pred_loss": 1.258515450491834,
+      "eval_flow_mse_loss": 0.3336726897942232,
+      "eval_loss": 0.7917237284341092,
+      "eval_runtime": 209.9979,
+      "eval_samples_per_second": 142.859,
+      "eval_steps_per_second": 2.233,
+      "flow/cos_sim": 0.8359491508652661,
+      "flow/improvement_ratio": 0.9927860422175068,
+      "flow/mag_ratio_mean": 0.8206447137952614,
+      "flow/mag_ratio_std": 0.15771287044228266,
+      "step": 4096
+    },
+    {
+      "epoch": 0.22065636649643372,
+      "grad_norm": 1.1233476400375366,
+      "learning_rate": 9.182261125213742e-05,
+      "loss": 0.7920548319816589,
+      "step": 5120
+    },
+    {
+      "epoch": 0.22065636649643372,
+      "eval_bleu": 0.6141381527733952,
+      "eval_ce_clean_loss": 0.046100005622643395,
+      "eval_ce_pred_loss": 1.1288676523704773,
+      "eval_flow_mse_loss": 0.31850481783149087,
+      "eval_loss": 0.7265807632952611,
+      "flow/cos_sim": 0.8455876523751948,
+      "flow/improvement_ratio": 0.9943026553339033,
+      "flow/mag_ratio_mean": 0.8284942273900453,
+      "flow/mag_ratio_std": 0.15012658069700574,
+      "step": 5120
+    },
+    {
+      "epoch": 0.22065636649643372,
+      "eval_bleu": 0.6141381527733952,
+      "eval_ce_clean_loss": 0.046100005622643395,
+      "eval_ce_pred_loss": 1.1288676523704773,
+      "eval_flow_mse_loss": 0.31850481783149087,
+      "eval_loss": 0.7265807632952611,
+      "eval_runtime": 209.0531,
+      "eval_samples_per_second": 143.504,
+      "eval_steps_per_second": 2.243,
+      "flow/cos_sim": 0.8455876523751948,
+      "flow/improvement_ratio": 0.9943026553339033,
+      "flow/mag_ratio_mean": 0.8284942273900453,
+      "flow/mag_ratio_std": 0.15012658069700574,
+      "step": 5120
+    },
+    {
+      "epoch": 0.26478763979572045,
+      "grad_norm": 0.9059746861457825,
+      "learning_rate": 8.742300854391668e-05,
+      "loss": 0.739564061164856,
+      "step": 6144
+    },
+    {
+      "epoch": 0.26478763979572045,
+      "eval_bleu": 0.6198216768379229,
+      "eval_ce_clean_loss": 0.029896165732778847,
+      "eval_ce_pred_loss": 1.0876380618828445,
+      "eval_flow_mse_loss": 0.2986504494317813,
+      "eval_loss": 0.6804513752079213,
+      "flow/cos_sim": 0.8570804311268365,
+      "flow/improvement_ratio": 0.9947732735290202,
+      "flow/mag_ratio_mean": 0.8387555105091412,
+      "flow/mag_ratio_std": 0.1402454181933708,
+      "step": 6144
+    },
+    {
+      "epoch": 0.26478763979572045,
+      "eval_bleu": 0.6198216768379229,
+      "eval_ce_clean_loss": 0.029896165732778847,
+      "eval_ce_pred_loss": 1.0876380618828445,
+      "eval_flow_mse_loss": 0.2986504494317813,
+      "eval_loss": 0.6804513752079213,
+      "eval_runtime": 210.2055,
+      "eval_samples_per_second": 142.717,
+      "eval_steps_per_second": 2.231,
+      "flow/cos_sim": 0.8570804311268365,
+      "flow/improvement_ratio": 0.9947732735290202,
+      "flow/mag_ratio_mean": 0.8387555105091412,
+      "flow/mag_ratio_std": 0.1402454181933708,
+      "step": 6144
+    },
+    {
+      "epoch": 0.30891891309500724,
+      "grad_norm": 1.3166066408157349,
+      "learning_rate": 8.223753024725232e-05,
+      "loss": 0.695237398147583,
+      "step": 7168
+    },
+    {
+      "epoch": 0.30891891309500724,
+      "eval_bleu": 0.627917040125629,
+      "eval_ce_clean_loss": 0.02094623373785634,
+      "eval_ce_pred_loss": 1.033265697549401,
+      "eval_flow_mse_loss": 0.2873198388736131,
+      "eval_loss": 0.6481060202696176,
+      "flow/cos_sim": 0.8640452186181855,
+      "flow/improvement_ratio": 0.9950866964834331,
+      "flow/mag_ratio_mean": 0.8478114263081094,
+      "flow/mag_ratio_std": 0.1337283741214128,
+      "step": 7168
+    },
+    {
+      "epoch": 0.30891891309500724,
+      "eval_bleu": 0.627917040125629,
+      "eval_ce_clean_loss": 0.02094623373785634,
+      "eval_ce_pred_loss": 1.033265697549401,
+      "eval_flow_mse_loss": 0.2873198388736131,
+      "eval_loss": 0.6481060202696176,
+      "eval_runtime": 208.5711,
+      "eval_samples_per_second": 143.836,
+      "eval_steps_per_second": 2.249,
+      "flow/cos_sim": 0.8640452186181855,
+      "flow/improvement_ratio": 0.9950866964834331,
+      "flow/mag_ratio_mean": 0.8478114263081094,
+      "flow/mag_ratio_std": 0.1337283741214128,
+      "step": 7168
+    },
+    {
+      "epoch": 0.353050186394294,
+      "grad_norm": 0.5672258138656616,
+      "learning_rate": 7.638108666591397e-05,
+      "loss": 0.6690872311592102,
+      "step": 8192
+    },
+    {
+      "epoch": 0.353050186394294,
+      "eval_bleu": 0.6309746295669453,
+      "eval_ce_clean_loss": 0.01552465901986114,
+      "eval_ce_pred_loss": 1.0102047525616342,
+      "eval_flow_mse_loss": 0.27783878338235274,
+      "eval_loss": 0.6265614598925943,
+      "flow/cos_sim": 0.8690010274905385,
+      "flow/improvement_ratio": 0.9952761089878042,
+      "flow/mag_ratio_mean": 0.8550727737229517,
+      "flow/mag_ratio_std": 0.1263450812746975,
+      "step": 8192
+    },
+    {
+      "epoch": 0.353050186394294,
+      "eval_bleu": 0.6309746295669453,
+      "eval_ce_clean_loss": 0.01552465901986114,
+      "eval_ce_pred_loss": 1.0102047525616342,
+      "eval_flow_mse_loss": 0.27783878338235274,
+      "eval_loss": 0.6265614598925943,
+      "eval_runtime": 207.2091,
+      "eval_samples_per_second": 144.781,
+      "eval_steps_per_second": 2.263,
+      "flow/cos_sim": 0.8690010274905385,
+      "flow/improvement_ratio": 0.9952761089878042,
+      "flow/mag_ratio_mean": 0.8550727737229517,
+      "flow/mag_ratio_std": 0.1263450812746975,
+      "step": 8192
+    },
+    {
+      "epoch": 0.3971814596935807,
+      "grad_norm": 0.7092581391334534,
+      "learning_rate": 6.997172522088177e-05,
+      "loss": 0.6498280167579651,
+      "step": 9216
+    },
+    {
+      "epoch": 0.3971814596935807,
+      "eval_bleu": 0.6373013114426188,
+      "eval_ce_clean_loss": 0.012129734029004505,
+      "eval_ce_pred_loss": 0.968963607542042,
+      "eval_flow_mse_loss": 0.2738534473597622,
+      "eval_loss": 0.6106377621449387,
+      "flow/cos_sim": 0.8722376071059628,
+      "flow/improvement_ratio": 0.995415891411462,
+      "flow/mag_ratio_mean": 0.8592144122510068,
+      "flow/mag_ratio_std": 0.12714707042807455,
+      "step": 9216
+    },
+    {
+      "epoch": 0.3971814596935807,
+      "eval_bleu": 0.6373013114426188,
+      "eval_ce_clean_loss": 0.012129734029004505,
+      "eval_ce_pred_loss": 0.968963607542042,
+      "eval_flow_mse_loss": 0.2738534473597622,
+      "eval_loss": 0.6106377621449387,
+      "eval_runtime": 209.0817,
+      "eval_samples_per_second": 143.485,
+      "eval_steps_per_second": 2.243,
+      "flow/cos_sim": 0.8722376071059628,
+      "flow/improvement_ratio": 0.995415891411462,
+      "flow/mag_ratio_mean": 0.8592144122510068,
+      "flow/mag_ratio_std": 0.12714707042807455,
+      "step": 9216
+    },
+    {
+      "epoch": 0.44131273299286744,
+      "grad_norm": 0.8420266509056091,
+      "learning_rate": 6.31369458152119e-05,
+      "loss": 0.6314405202865601,
+      "step": 10240
+    },
+    {
+      "epoch": 0.44131273299286744,
+      "eval_bleu": 0.6442594676772799,
+      "eval_ce_clean_loss": 0.0098183449190944,
+      "eval_ce_pred_loss": 0.9553712858701311,
+      "eval_flow_mse_loss": 0.2638659175080277,
+      "eval_loss": 0.5917823087177805,
+      "flow/cos_sim": 0.8785403088720114,
+      "flow/improvement_ratio": 0.9960034287560469,
+      "flow/mag_ratio_mean": 0.8642366008717877,
+      "flow/mag_ratio_std": 0.12432963887193818,
+      "step": 10240
+    },
+    {
+      "epoch": 0.44131273299286744,
+      "eval_bleu": 0.6442594676772799,
+      "eval_ce_clean_loss": 0.0098183449190944,
+      "eval_ce_pred_loss": 0.9553712858701311,
+      "eval_flow_mse_loss": 0.2638659175080277,
+      "eval_loss": 0.5917823087177805,
+      "eval_runtime": 209.3334,
+      "eval_samples_per_second": 143.312,
+      "eval_steps_per_second": 2.24,
+      "flow/cos_sim": 0.8785403088720114,
+      "flow/improvement_ratio": 0.9960034287560469,
+      "flow/mag_ratio_mean": 0.8642366008717877,
+      "flow/mag_ratio_std": 0.12432963887193818,
+      "step": 10240
+    },
+    {
+      "epoch": 0.4854440062921542,
+      "grad_norm": 0.3429703414440155,
+      "learning_rate": 5.603332356428589e-05,
+      "loss": 0.6177480220794678,
+      "step": 11264
+    },
+    {
+      "epoch": 0.4854440062921542,
+      "eval_bleu": 0.6459261776602792,
+      "eval_ce_clean_loss": 0.008190781515000313,
+      "eval_ce_pred_loss": 0.9417594762753322,
+      "eval_flow_mse_loss": 0.2546466169263254,
+      "eval_loss": 0.574417214912138,
+      "flow/cos_sim": 0.8827967003210268,
+      "flow/improvement_ratio": 0.9961045048892625,
+      "flow/mag_ratio_mean": 0.8684060909092299,
+      "flow/mag_ratio_std": 0.12099546292570354,
+      "step": 11264
+    },
+    {
+      "epoch": 0.4854440062921542,
+      "eval_bleu": 0.6459261776602792,
+      "eval_ce_clean_loss": 0.008190781515000313,
+      "eval_ce_pred_loss": 0.9417594762753322,
+      "eval_flow_mse_loss": 0.2546466169263254,
+      "eval_loss": 0.574417214912138,
+      "eval_runtime": 206.6984,
+      "eval_samples_per_second": 145.139,
+      "eval_steps_per_second": 2.269,
+      "flow/cos_sim": 0.8827967003210268,
+      "flow/improvement_ratio": 0.9961045048892625,
+      "flow/mag_ratio_mean": 0.8684060909092299,
+      "flow/mag_ratio_std": 0.12099546292570354,
+      "step": 11264
+    }
+  ],
+  "logging_steps": 1024,
+  "max_steps": 23204,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 1024,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints-v5.14-b/checkpoint-11264/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8469bbc81a2ba0be2f5b44007faafd15c75615abe30f4f4e56171816d31caa5b
+size 5137