Upload folder using huggingface_hub

Browse files

Files changed (10) hide show

.gitattributes +1 -0
checkpoints-v5.13/checkpoint-10240/ema.safetensors +3 -0
checkpoints-v5.13/checkpoint-10240/eval_state.json +3 -0
checkpoints-v5.13/checkpoint-10240/model.safetensors +3 -0
checkpoints-v5.13/checkpoint-10240/optimizer.pt +3 -0
checkpoints-v5.13/checkpoint-10240/rng_state.pth +3 -0
checkpoints-v5.13/checkpoint-10240/scaler.pt +3 -0
checkpoints-v5.13/checkpoint-10240/scheduler.pt +3 -0
checkpoints-v5.13/checkpoint-10240/trainer_state.json +394 -0
checkpoints-v5.13/checkpoint-10240/training_args.bin +3 -0

.gitattributes CHANGED Viewed

@@ -59,3 +59,4 @@ checkpoints-v5.11-c/checkpoint-10240/eval_state.json filter=lfs diff=lfs merge=l
 checkpoints-v5.12/checkpoint-11264/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v5.12-b/checkpoint-12288/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v5.12-d/checkpoint-11264/eval_state.json filter=lfs diff=lfs merge=lfs -text

 checkpoints-v5.12/checkpoint-11264/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v5.12-b/checkpoint-12288/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v5.12-d/checkpoint-11264/eval_state.json filter=lfs diff=lfs merge=lfs -text
+checkpoints-v5.13/checkpoint-10240/eval_state.json filter=lfs diff=lfs merge=lfs -text

checkpoints-v5.13/checkpoint-10240/ema.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f2eb2abb81bada4b762c3a2d78cf998e9110ae1ee7b85f8f2db8241ebf8f8ad6
+size 54599376

checkpoints-v5.13/checkpoint-10240/eval_state.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a002e3a94fdfa35bd447a3cd0600d13bf6dbff41967dde8a585feec8bbc16129
+size 57335199

checkpoints-v5.13/checkpoint-10240/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:779c781fe0149320fac52c441aef4a5633da223e734cf2a974c21cd78b317374
+size 54599408

checkpoints-v5.13/checkpoint-10240/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef67abc047b7bd656110c6f004decfbacf5467584426d300e04092db8546299a
+size 76550347

checkpoints-v5.13/checkpoint-10240/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1fc9a7ad80ccf79ec63508fe00c62cf70deaf89caf3ca329a532d3f0b214151c
+size 14645

checkpoints-v5.13/checkpoint-10240/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0ca473aa8250b374ed8c4f41d8d32e2543df871f0ef43fb9bef379720f3effa6
+size 1383

checkpoints-v5.13/checkpoint-10240/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:012f7b23a26c3659b3d642258b23d2a9db5c112a8101c3ff10a13ac93f47a91e
+size 1465

checkpoints-v5.13/checkpoint-10240/trainer_state.json ADDED Viewed

	@@ -0,0 +1,394 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.44131273299286744,
+  "eval_steps": 1024,
+  "global_step": 10240,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.04413127329928675,
+      "grad_norm": 1.494909644126892,
+      "learning_rate": 9.990234375e-05,
+      "loss": 10.558365821838379,
+      "step": 1024
+    },
+    {
+      "epoch": 0.04413127329928675,
+      "eval_bleu": 0.01783162227390368,
+      "eval_ce_clean_loss": 5.113113228446131,
+      "eval_ce_pred_loss": 6.382955722971512,
+      "eval_flow_mse_loss": 0.6393874252020423,
+      "eval_loss": 7.917386228850147,
+      "flow/cos_sim": 0.6790165794429495,
+      "flow/improvement_ratio": 0.989253781243428,
+      "flow/mag_ratio_mean": 0.6435873824904468,
+      "flow/mag_ratio_std": 0.12294128958159672,
+      "step": 1024
+    },
+    {
+      "epoch": 0.04413127329928675,
+      "eval_bleu": 0.01783162227390368,
+      "eval_ce_clean_loss": 5.113113228446131,
+      "eval_ce_pred_loss": 6.382955722971512,
+      "eval_flow_mse_loss": 0.6393874252020423,
+      "eval_loss": 7.917386228850147,
+      "eval_runtime": 198.8656,
+      "eval_samples_per_second": 150.856,
+      "eval_steps_per_second": 2.358,
+      "flow/cos_sim": 0.6790165794429495,
+      "flow/improvement_ratio": 0.989253781243428,
+      "flow/mag_ratio_mean": 0.6435873824904468,
+      "flow/mag_ratio_std": 0.12294128958159672,
+      "step": 1024
+    },
+    {
+      "epoch": 0.0882625465985735,
+      "grad_norm": 2.873643636703491,
+      "learning_rate": 9.9476028157316e-05,
+      "loss": 6.903970718383789,
+      "step": 2048
+    },
+    {
+      "epoch": 0.0882625465985735,
+      "eval_bleu": 0.11593650942326097,
+      "eval_ce_clean_loss": 2.2551004479943053,
+      "eval_ce_pred_loss": 4.769287265948395,
+      "eval_flow_mse_loss": 0.6430447692555914,
+      "eval_loss": 6.168131845592182,
+      "flow/cos_sim": 0.7368744161845778,
+      "flow/improvement_ratio": 0.9932950693152861,
+      "flow/mag_ratio_mean": 0.7202034869682051,
+      "flow/mag_ratio_std": 0.12230911493492025,
+      "step": 2048
+    },
+    {
+      "epoch": 0.0882625465985735,
+      "eval_bleu": 0.11593650942326097,
+      "eval_ce_clean_loss": 2.2551004479943053,
+      "eval_ce_pred_loss": 4.769287265948395,
+      "eval_flow_mse_loss": 0.6430447692555914,
+      "eval_loss": 6.168131845592182,
+      "eval_runtime": 194.9626,
+      "eval_samples_per_second": 153.876,
+      "eval_steps_per_second": 2.406,
+      "flow/cos_sim": 0.7368744161845778,
+      "flow/improvement_ratio": 0.9932950693152861,
+      "flow/mag_ratio_mean": 0.7202034869682051,
+      "flow/mag_ratio_std": 0.12230911493492025,
+      "step": 2048
+    },
+    {
+      "epoch": 0.13239381989786023,
+      "grad_norm": 1.963213562965393,
+      "learning_rate": 9.791307026072513e-05,
+      "loss": 5.896533966064453,
+      "step": 3072
+    },
+    {
+      "epoch": 0.13239381989786023,
+      "eval_bleu": 0.22340954255869927,
+      "eval_ce_clean_loss": 1.0927449037779624,
+      "eval_ce_pred_loss": 3.997951118676647,
+      "eval_flow_mse_loss": 0.7336779006762799,
+      "eval_loss": 5.5199441584442726,
+      "flow/cos_sim": 0.7423725029044568,
+      "flow/improvement_ratio": 0.9944698698739253,
+      "flow/mag_ratio_mean": 0.7333130830132377,
+      "flow/mag_ratio_std": 0.10308958378745549,
+      "step": 3072
+    },
+    {
+      "epoch": 0.13239381989786023,
+      "eval_bleu": 0.22340954255869927,
+      "eval_ce_clean_loss": 1.0927449037779624,
+      "eval_ce_pred_loss": 3.997951118676647,
+      "eval_flow_mse_loss": 0.7336779006762799,
+      "eval_loss": 5.5199441584442726,
+      "eval_runtime": 197.9053,
+      "eval_samples_per_second": 151.588,
+      "eval_steps_per_second": 2.37,
+      "flow/cos_sim": 0.7423725029044568,
+      "flow/improvement_ratio": 0.9944698698739253,
+      "flow/mag_ratio_mean": 0.7333130830132377,
+      "flow/mag_ratio_std": 0.10308958378745549,
+      "step": 3072
+    },
+    {
+      "epoch": 0.176525093197147,
+      "grad_norm": 2.6798717975616455,
+      "learning_rate": 9.53439476074686e-05,
+      "loss": 5.3913893699646,
+      "step": 4096
+    },
+    {
+      "epoch": 0.176525093197147,
+      "eval_bleu": 0.2800187274787319,
+      "eval_ce_clean_loss": 0.6225955817999362,
+      "eval_ce_pred_loss": 3.6108802056261724,
+      "eval_flow_mse_loss": 0.7529211650525075,
+      "eval_loss": 5.1478523181191385,
+      "flow/cos_sim": 0.7643928447766091,
+      "flow/improvement_ratio": 0.9944455485099922,
+      "flow/mag_ratio_mean": 0.7568985690186019,
+      "flow/mag_ratio_std": 0.0913195873755636,
+      "step": 4096
+    },
+    {
+      "epoch": 0.176525093197147,
+      "eval_bleu": 0.2800187274787319,
+      "eval_ce_clean_loss": 0.6225955817999362,
+      "eval_ce_pred_loss": 3.6108802056261724,
+      "eval_flow_mse_loss": 0.7529211650525075,
+      "eval_loss": 5.1478523181191385,
+      "eval_runtime": 197.4669,
+      "eval_samples_per_second": 151.924,
+      "eval_steps_per_second": 2.375,
+      "flow/cos_sim": 0.7643928447766091,
+      "flow/improvement_ratio": 0.9944455485099922,
+      "flow/mag_ratio_mean": 0.7568985690186019,
+      "flow/mag_ratio_std": 0.0913195873755636,
+      "step": 4096
+    },
+    {
+      "epoch": 0.22065636649643372,
+      "grad_norm": 2.535186290740967,
+      "learning_rate": 9.182261125213742e-05,
+      "loss": 5.147547721862793,
+      "step": 5120
+    },
+    {
+      "epoch": 0.22065636649643372,
+      "eval_bleu": 0.3053154169960293,
+      "eval_ce_clean_loss": 0.41435685251821586,
+      "eval_ce_pred_loss": 3.449783759838991,
+      "eval_flow_mse_loss": 0.7528119537113572,
+      "eval_loss": 4.976125506704042,
+      "flow/cos_sim": 0.7813212059454114,
+      "flow/improvement_ratio": 0.9948347681112635,
+      "flow/mag_ratio_mean": 0.776543180063081,
+      "flow/mag_ratio_std": 0.09103687264835403,
+      "step": 5120
+    },
+    {
+      "epoch": 0.22065636649643372,
+      "eval_bleu": 0.3053154169960293,
+      "eval_ce_clean_loss": 0.41435685251821586,
+      "eval_ce_pred_loss": 3.449783759838991,
+      "eval_flow_mse_loss": 0.7528119537113572,
+      "eval_loss": 4.976125506704042,
+      "eval_runtime": 197.6993,
+      "eval_samples_per_second": 151.746,
+      "eval_steps_per_second": 2.372,
+      "flow/cos_sim": 0.7813212059454114,
+      "flow/improvement_ratio": 0.9948347681112635,
+      "flow/mag_ratio_mean": 0.776543180063081,
+      "flow/mag_ratio_std": 0.09103687264835403,
+      "step": 5120
+    },
+    {
+      "epoch": 0.26478763979572045,
+      "grad_norm": 2.4092211723327637,
+      "learning_rate": 8.742770483354739e-05,
+      "loss": 5.022783279418945,
+      "step": 6144
+    },
+    {
+      "epoch": 0.26478763979572045,
+      "eval_bleu": 0.33906886701230604,
+      "eval_ce_clean_loss": 0.2994945513795434,
+      "eval_ce_pred_loss": 3.290702233182342,
+      "eval_flow_mse_loss": 0.773993508775097,
+      "eval_loss": 4.853663968633233,
+      "flow/cos_sim": 0.7896791383910027,
+      "flow/improvement_ratio": 0.9946608845867327,
+      "flow/mag_ratio_mean": 0.7799155161833204,
+      "flow/mag_ratio_std": 0.08988576584152067,
+      "step": 6144
+    },
+    {
+      "epoch": 0.26478763979572045,
+      "eval_bleu": 0.33906886701230604,
+      "eval_ce_clean_loss": 0.2994945513795434,
+      "eval_ce_pred_loss": 3.290702233182342,
+      "eval_flow_mse_loss": 0.773993508775097,
+      "eval_loss": 4.853663968633233,
+      "eval_runtime": 200.3603,
+      "eval_samples_per_second": 149.73,
+      "eval_steps_per_second": 2.341,
+      "flow/cos_sim": 0.7896791383910027,
+      "flow/improvement_ratio": 0.9946608845867327,
+      "flow/mag_ratio_mean": 0.7799155161833204,
+      "flow/mag_ratio_std": 0.08988576584152067,
+      "step": 6144
+    },
+    {
+      "epoch": 0.30891891309500724,
+      "grad_norm": 2.1287426948547363,
+      "learning_rate": 8.224294338515429e-05,
+      "loss": 4.9035539627075195,
+      "step": 7168
+    },
+    {
+      "epoch": 0.30891891309500724,
+      "eval_bleu": 0.3480464679034335,
+      "eval_ce_clean_loss": 0.21776549311589077,
+      "eval_ce_pred_loss": 3.2082721439760125,
+      "eval_flow_mse_loss": 0.7715615421724218,
+      "eval_loss": 4.762283505153046,
+      "flow/cos_sim": 0.8001054125045662,
+      "flow/improvement_ratio": 0.9956451170225896,
+      "flow/mag_ratio_mean": 0.7901499730183371,
+      "flow/mag_ratio_std": 0.09086708368650123,
+      "step": 7168
+    },
+    {
+      "epoch": 0.30891891309500724,
+      "eval_bleu": 0.3480464679034335,
+      "eval_ce_clean_loss": 0.21776549311589077,
+      "eval_ce_pred_loss": 3.2082721439760125,
+      "eval_flow_mse_loss": 0.7715615421724218,
+      "eval_loss": 4.762283505153046,
+      "eval_runtime": 201.5438,
+      "eval_samples_per_second": 148.851,
+      "eval_steps_per_second": 2.327,
+      "flow/cos_sim": 0.8001054125045662,
+      "flow/improvement_ratio": 0.9956451170225896,
+      "flow/mag_ratio_mean": 0.7901499730183371,
+      "flow/mag_ratio_std": 0.09086708368650123,
+      "step": 7168
+    },
+    {
+      "epoch": 0.353050186394294,
+      "grad_norm": 3.0387144088745117,
+      "learning_rate": 7.638710244802891e-05,
+      "loss": 4.836576461791992,
+      "step": 8192
+    },
+    {
+      "epoch": 0.353050186394294,
+      "eval_bleu": 0.36346088372504254,
+      "eval_ce_clean_loss": 0.16641782521248372,
+      "eval_ce_pred_loss": 3.0993169924851927,
+      "eval_flow_mse_loss": 0.8029602197950074,
+      "eval_loss": 4.713558329702186,
+      "flow/cos_sim": 0.7950902686698604,
+      "flow/improvement_ratio": 0.9948422589790084,
+      "flow/mag_ratio_mean": 0.7867920369481736,
+      "flow/mag_ratio_std": 0.09154397195209064,
+      "step": 8192
+    },
+    {
+      "epoch": 0.353050186394294,
+      "eval_bleu": 0.36346088372504254,
+      "eval_ce_clean_loss": 0.16641782521248372,
+      "eval_ce_pred_loss": 3.0993169924851927,
+      "eval_flow_mse_loss": 0.8029602197950074,
+      "eval_loss": 4.713558329702186,
+      "eval_runtime": 200.8427,
+      "eval_samples_per_second": 149.371,
+      "eval_steps_per_second": 2.335,
+      "flow/cos_sim": 0.7950902686698604,
+      "flow/improvement_ratio": 0.9948422589790084,
+      "flow/mag_ratio_mean": 0.7867920369481736,
+      "flow/mag_ratio_std": 0.09154397195209064,
+      "step": 8192
+    },
+    {
+      "epoch": 0.3971814596935807,
+      "grad_norm": 3.59243106842041,
+      "learning_rate": 6.997172522088177e-05,
+      "loss": 4.782395839691162,
+      "step": 9216
+    },
+    {
+      "epoch": 0.3971814596935807,
+      "eval_bleu": 0.3757265270123782,
+      "eval_ce_clean_loss": 0.12781680051261174,
+      "eval_ce_pred_loss": 3.006926007870672,
+      "eval_flow_mse_loss": 0.8061816210685763,
+      "eval_loss": 4.625680092301196,
+      "flow/cos_sim": 0.7941642720053699,
+      "flow/improvement_ratio": 0.9953706000151157,
+      "flow/mag_ratio_mean": 0.7849750817457496,
+      "flow/mag_ratio_std": 0.09034538151485834,
+      "step": 9216
+    },
+    {
+      "epoch": 0.3971814596935807,
+      "eval_bleu": 0.3757265270123782,
+      "eval_ce_clean_loss": 0.12781680051261174,
+      "eval_ce_pred_loss": 3.006926007870672,
+      "eval_flow_mse_loss": 0.8061816210685763,
+      "eval_loss": 4.625680092301196,
+      "eval_runtime": 201.9484,
+      "eval_samples_per_second": 148.553,
+      "eval_steps_per_second": 2.322,
+      "flow/cos_sim": 0.7941642720053699,
+      "flow/improvement_ratio": 0.9953706000151157,
+      "flow/mag_ratio_mean": 0.7849750817457496,
+      "flow/mag_ratio_std": 0.09034538151485834,
+      "step": 9216
+    },
+    {
+      "epoch": 0.44131273299286744,
+      "grad_norm": 1.9372941255569458,
+      "learning_rate": 6.314377890922702e-05,
+      "loss": 4.709839344024658,
+      "step": 10240
+    },
+    {
+      "epoch": 0.44131273299286744,
+      "eval_bleu": 0.384820716640729,
+      "eval_ce_clean_loss": 0.10139369124224953,
+      "eval_ce_pred_loss": 2.980883625270461,
+      "eval_flow_mse_loss": 0.8078947467590446,
+      "eval_loss": 4.60174279833145,
+      "flow/cos_sim": 0.7942168434291507,
+      "flow/improvement_ratio": 0.9958993082107511,
+      "flow/mag_ratio_mean": 0.783384837956825,
+      "flow/mag_ratio_std": 0.0892253501265288,
+      "step": 10240
+    },
+    {
+      "epoch": 0.44131273299286744,
+      "eval_bleu": 0.384820716640729,
+      "eval_ce_clean_loss": 0.10139369124224953,
+      "eval_ce_pred_loss": 2.980883625270461,
+      "eval_flow_mse_loss": 0.8078947467590446,
+      "eval_loss": 4.60174279833145,
+      "eval_runtime": 199.3935,
+      "eval_samples_per_second": 150.456,
+      "eval_steps_per_second": 2.352,
+      "flow/cos_sim": 0.7942168434291507,
+      "flow/improvement_ratio": 0.9958993082107511,
+      "flow/mag_ratio_mean": 0.783384837956825,
+      "flow/mag_ratio_std": 0.0892253501265288,
+      "step": 10240
+    }
+  ],
+  "logging_steps": 1024,
+  "max_steps": 23204,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 1024,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints-v5.13/checkpoint-10240/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8469bbc81a2ba0be2f5b44007faafd15c75615abe30f4f4e56171816d31caa5b
+size 5137