Upload folder using huggingface_hub

Browse files

Files changed (10) hide show

.gitattributes +1 -0
checkpoints-v5.6/checkpoint-14336/ema.safetensors +3 -0
checkpoints-v5.6/checkpoint-14336/eval_state.json +3 -0
checkpoints-v5.6/checkpoint-14336/model.safetensors +3 -0
checkpoints-v5.6/checkpoint-14336/optimizer.pt +3 -0
checkpoints-v5.6/checkpoint-14336/rng_state.pth +3 -0
checkpoints-v5.6/checkpoint-14336/scaler.pt +3 -0
checkpoints-v5.6/checkpoint-14336/scheduler.pt +3 -0
checkpoints-v5.6/checkpoint-14336/trainer_state.json +566 -0
checkpoints-v5.6/checkpoint-14336/training_args.bin +3 -0

.gitattributes CHANGED Viewed

@@ -43,3 +43,4 @@ checkpoints-v5.5/checkpoint-16384/eval_state.json filter=lfs diff=lfs merge=lfs
 checkpoints-v4.4+/checkpoint-7168/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v5.5/checkpoint-24576/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v5.6/checkpoint-4096/eval_state.json filter=lfs diff=lfs merge=lfs -text

 checkpoints-v4.4+/checkpoint-7168/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v5.5/checkpoint-24576/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v5.6/checkpoint-4096/eval_state.json filter=lfs diff=lfs merge=lfs -text
+checkpoints-v5.6/checkpoint-14336/eval_state.json filter=lfs diff=lfs merge=lfs -text

checkpoints-v5.6/checkpoint-14336/ema.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f06b4cb6ab59aa4e5cfc27af41908925b25c9a1919b4fffb002fccd47fb83dd5
+size 54599592

checkpoints-v5.6/checkpoint-14336/eval_state.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:faec1ef62aef8e8e3974a59295f05c1d11d0e69ead203ad058247a8ada06311a
+size 58408752

checkpoints-v5.6/checkpoint-14336/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d658416497177d36a2a33f05ef6c531a5d65993c70c4a9d3138885f6e36463f9
+size 54599624

checkpoints-v5.6/checkpoint-14336/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8f9fc4bfb123840f05ffc8b78cccd5d95190ec220ea328196eefeced9dbf54af
+size 76550347

checkpoints-v5.6/checkpoint-14336/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8c84b0b910e410334974b64277a31060a45a30a6af56f606c7714596a8a3a85d
+size 14645

checkpoints-v5.6/checkpoint-14336/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:79701bbdc0c49714e0e085b5c67881fa167d2bf0d010e2195ebdf057057d72dd
+size 1383

checkpoints-v5.6/checkpoint-14336/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3fea187e43031df6b1b3d8be1593743f072013fecb64ec1a061b4e69f4994c94
+size 1465

checkpoints-v5.6/checkpoint-14336/trainer_state.json ADDED Viewed

	@@ -0,0 +1,566 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.6178378261900145,
+  "eval_steps": 1024,
+  "global_step": 14336,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.04413127329928675,
+      "grad_norm": 2.024094581604004,
+      "learning_rate": 9.990234375e-05,
+      "loss": 13.011528968811035,
+      "step": 1024
+    },
+    {
+      "epoch": 0.04413127329928675,
+      "eval_bleu": 0.13973491511585304,
+      "eval_ce_clean_loss": 2.321801658886582,
+      "eval_ce_pred_loss": 5.398845981687371,
+      "eval_flow_cos_loss": 0.4359625861970092,
+      "eval_flow_mse_loss": 1.261753735003441,
+      "eval_loss": 7.471738189014037,
+      "flow/cos_sim": 0.5640374244784495,
+      "flow/improvement_ratio": 0.9125845870737836,
+      "flow/mag_ratio_mean": 0.005239322681281803,
+      "flow/mag_ratio_std": 0.0019533936416349018,
+      "step": 1024
+    },
+    {
+      "epoch": 0.04413127329928675,
+      "eval_bleu": 0.13973491511585304,
+      "eval_ce_clean_loss": 2.321801658886582,
+      "eval_ce_pred_loss": 5.398845981687371,
+      "eval_flow_cos_loss": 0.4359625861970092,
+      "eval_flow_mse_loss": 1.261753735003441,
+      "eval_loss": 7.471738189014037,
+      "eval_runtime": 200.3486,
+      "eval_samples_per_second": 149.739,
+      "eval_steps_per_second": 2.341,
+      "flow/cos_sim": 0.5640374244784495,
+      "flow/improvement_ratio": 0.9125845870737836,
+      "flow/mag_ratio_mean": 0.005239322681281803,
+      "flow/mag_ratio_std": 0.0019533936416349018,
+      "step": 1024
+    },
+    {
+      "epoch": 0.0882625465985735,
+      "grad_norm": 2.3836026191711426,
+      "learning_rate": 9.9476028157316e-05,
+      "loss": 5.076037406921387,
+      "step": 2048
+    },
+    {
+      "epoch": 0.0882625465985735,
+      "eval_bleu": 0.334789938692836,
+      "eval_ce_clean_loss": 0.34960190961355847,
+      "eval_ce_pred_loss": 3.634908381301457,
+      "eval_flow_cos_loss": 0.4467242890075326,
+      "eval_flow_mse_loss": 1.0751057558222366,
+      "eval_loss": 4.080824585611632,
+      "flow/cos_sim": 0.5532757186177951,
+      "flow/improvement_ratio": 0.988054730363492,
+      "flow/mag_ratio_mean": 0.4422806202094438,
+      "flow/mag_ratio_std": 0.11935382749416681,
+      "step": 2048
+    },
+    {
+      "epoch": 0.0882625465985735,
+      "eval_bleu": 0.334789938692836,
+      "eval_ce_clean_loss": 0.34960190961355847,
+      "eval_ce_pred_loss": 3.634908381301457,
+      "eval_flow_cos_loss": 0.4467242890075326,
+      "eval_flow_mse_loss": 1.0751057558222366,
+      "eval_loss": 4.080824585611632,
+      "eval_runtime": 198.1742,
+      "eval_samples_per_second": 151.382,
+      "eval_steps_per_second": 2.367,
+      "flow/cos_sim": 0.5532757186177951,
+      "flow/improvement_ratio": 0.988054730363492,
+      "flow/mag_ratio_mean": 0.4422806202094438,
+      "flow/mag_ratio_std": 0.11935382749416681,
+      "step": 2048
+    },
+    {
+      "epoch": 0.13239381989786023,
+      "grad_norm": 0.8187930583953857,
+      "learning_rate": 9.791307026072513e-05,
+      "loss": 3.823514938354492,
+      "step": 3072
+    },
+    {
+      "epoch": 0.13239381989786023,
+      "eval_bleu": 0.372073011692056,
+      "eval_ce_clean_loss": 0.13431392060414052,
+      "eval_ce_pred_loss": 3.167514971832731,
+      "eval_flow_cos_loss": 0.3423818138870857,
+      "eval_flow_mse_loss": 1.1092233459578393,
+      "eval_loss": 3.5463931677438048,
+      "flow/cos_sim": 0.6576181853503815,
+      "flow/improvement_ratio": 0.9944826788993787,
+      "flow/mag_ratio_mean": 0.6025184103166625,
+      "flow/mag_ratio_std": 0.11320645424094536,
+      "step": 3072
+    },
+    {
+      "epoch": 0.13239381989786023,
+      "eval_bleu": 0.372073011692056,
+      "eval_ce_clean_loss": 0.13431392060414052,
+      "eval_ce_pred_loss": 3.167514971832731,
+      "eval_flow_cos_loss": 0.3423818138870857,
+      "eval_flow_mse_loss": 1.1092233459578393,
+      "eval_loss": 3.5463931677438048,
+      "eval_runtime": 199.1274,
+      "eval_samples_per_second": 150.657,
+      "eval_steps_per_second": 2.355,
+      "flow/cos_sim": 0.6576181853503815,
+      "flow/improvement_ratio": 0.9944826788993787,
+      "flow/mag_ratio_mean": 0.6025184103166625,
+      "flow/mag_ratio_std": 0.11320645424094536,
+      "step": 3072
+    },
+    {
+      "epoch": 0.176525093197147,
+      "grad_norm": 1.596978783607483,
+      "learning_rate": 9.53439476074686e-05,
+      "loss": 3.4521546363830566,
+      "step": 4096
+    },
+    {
+      "epoch": 0.176525093197147,
+      "eval_bleu": 0.3922768378761595,
+      "eval_ce_clean_loss": 0.06992586965023327,
+      "eval_ce_pred_loss": 2.9707689447951977,
+      "eval_flow_cos_loss": 0.18835138766241988,
+      "eval_flow_mse_loss": 1.08429173365839,
+      "eval_loss": 3.2808436879725345,
+      "flow/cos_sim": 0.8116486336884976,
+      "flow/improvement_ratio": 0.9945465602091889,
+      "flow/mag_ratio_mean": 0.7910831776509153,
+      "flow/mag_ratio_std": 0.09716444489544135,
+      "step": 4096
+    },
+    {
+      "epoch": 0.176525093197147,
+      "eval_bleu": 0.3922768378761595,
+      "eval_ce_clean_loss": 0.06992586965023327,
+      "eval_ce_pred_loss": 2.9707689447951977,
+      "eval_flow_cos_loss": 0.18835138766241988,
+      "eval_flow_mse_loss": 1.08429173365839,
+      "eval_loss": 3.2808436879725345,
+      "eval_runtime": 199.2079,
+      "eval_samples_per_second": 150.596,
+      "eval_steps_per_second": 2.354,
+      "flow/cos_sim": 0.8116486336884976,
+      "flow/improvement_ratio": 0.9945465602091889,
+      "flow/mag_ratio_mean": 0.7910831776509153,
+      "flow/mag_ratio_std": 0.09716444489544135,
+      "step": 4096
+    },
+    {
+      "epoch": 0.22065636649643372,
+      "grad_norm": 0.8742256760597229,
+      "learning_rate": 9.18264920723673e-05,
+      "loss": 3.2747244834899902,
+      "step": 5120
+    },
+    {
+      "epoch": 0.22065636649643372,
+      "eval_bleu": 0.39936848850149986,
+      "eval_ce_clean_loss": 0.04289639472310096,
+      "eval_ce_pred_loss": 2.848231249780797,
+      "eval_flow_cos_loss": 0.13245032197122636,
+      "eval_flow_mse_loss": 1.07859928343596,
+      "eval_loss": 3.148370101253615,
+      "flow/cos_sim": 0.867549685908279,
+      "flow/improvement_ratio": 0.9947950637925154,
+      "flow/mag_ratio_mean": 0.8595841084716163,
+      "flow/mag_ratio_std": 0.08974277026363528,
+      "step": 5120
+    },
+    {
+      "epoch": 0.22065636649643372,
+      "eval_bleu": 0.39936848850149986,
+      "eval_ce_clean_loss": 0.04289639472310096,
+      "eval_ce_pred_loss": 2.848231249780797,
+      "eval_flow_cos_loss": 0.13245032197122636,
+      "eval_flow_mse_loss": 1.07859928343596,
+      "eval_loss": 3.148370101253615,
+      "eval_runtime": 207.1188,
+      "eval_samples_per_second": 144.844,
+      "eval_steps_per_second": 2.264,
+      "flow/cos_sim": 0.867549685908279,
+      "flow/improvement_ratio": 0.9947950637925154,
+      "flow/mag_ratio_mean": 0.8595841084716163,
+      "flow/mag_ratio_std": 0.08974277026363528,
+      "step": 5120
+    },
+    {
+      "epoch": 0.26478763979572045,
+      "grad_norm": 1.2167394161224365,
+      "learning_rate": 8.742770483354739e-05,
+      "loss": 3.171807050704956,
+      "step": 6144
+    },
+    {
+      "epoch": 0.26478763979572045,
+      "eval_bleu": 0.42114677949263607,
+      "eval_ce_clean_loss": 0.02962892580983926,
+      "eval_ce_pred_loss": 2.721838645081022,
+      "eval_flow_cos_loss": 0.11157757617326687,
+      "eval_flow_mse_loss": 1.0874363405109724,
+      "eval_loss": 3.0502466992782886,
+      "flow/cos_sim": 0.8884224528188644,
+      "flow/improvement_ratio": 0.994537014061454,
+      "flow/mag_ratio_mean": 0.882329723601148,
+      "flow/mag_ratio_std": 0.08614625519653882,
+      "step": 6144
+    },
+    {
+      "epoch": 0.26478763979572045,
+      "eval_bleu": 0.42114677949263607,
+      "eval_ce_clean_loss": 0.02962892580983926,
+      "eval_ce_pred_loss": 2.721838645081022,
+      "eval_flow_cos_loss": 0.11157757617326687,
+      "eval_flow_mse_loss": 1.0874363405109724,
+      "eval_loss": 3.0502466992782886,
+      "eval_runtime": 201.5414,
+      "eval_samples_per_second": 148.853,
+      "eval_steps_per_second": 2.327,
+      "flow/cos_sim": 0.8884224528188644,
+      "flow/improvement_ratio": 0.994537014061454,
+      "flow/mag_ratio_mean": 0.882329723601148,
+      "flow/mag_ratio_std": 0.08614625519653882,
+      "step": 6144
+    },
+    {
+      "epoch": 0.30891891309500724,
+      "grad_norm": 1.7619376182556152,
+      "learning_rate": 8.22483558761947e-05,
+      "loss": 3.073448896408081,
+      "step": 7168
+    },
+    {
+      "epoch": 0.30891891309500724,
+      "eval_bleu": 0.4370876849406368,
+      "eval_ce_clean_loss": 0.02222317859911715,
+      "eval_ce_pred_loss": 2.6402354730980226,
+      "eval_flow_cos_loss": 0.10016548941765767,
+      "eval_flow_mse_loss": 1.0842415976371846,
+      "eval_loss": 2.979670949582098,
+      "flow/cos_sim": 0.8998345271356578,
+      "flow/improvement_ratio": 0.9956297869367132,
+      "flow/mag_ratio_mean": 0.8991066802030941,
+      "flow/mag_ratio_std": 0.08455248013424721,
+      "step": 7168
+    },
+    {
+      "epoch": 0.30891891309500724,
+      "eval_bleu": 0.4370876849406368,
+      "eval_ce_clean_loss": 0.02222317859911715,
+      "eval_ce_pred_loss": 2.6402354730980226,
+      "eval_flow_cos_loss": 0.10016548941765767,
+      "eval_flow_mse_loss": 1.0842415976371846,
+      "eval_loss": 2.979670949582098,
+      "eval_runtime": 203.5883,
+      "eval_samples_per_second": 147.356,
+      "eval_steps_per_second": 2.304,
+      "flow/cos_sim": 0.8998345271356578,
+      "flow/improvement_ratio": 0.9956297869367132,
+      "flow/mag_ratio_mean": 0.8991066802030941,
+      "flow/mag_ratio_std": 0.08455248013424721,
+      "step": 7168
+    },
+    {
+      "epoch": 0.353050186394294,
+      "grad_norm": 1.8936859369277954,
+      "learning_rate": 7.639311770076283e-05,
+      "loss": 3.0209758281707764,
+      "step": 8192
+    },
+    {
+      "epoch": 0.353050186394294,
+      "eval_bleu": 0.4462124473905187,
+      "eval_ce_clean_loss": 0.017575070791160947,
+      "eval_ce_pred_loss": 2.586446302277701,
+      "eval_flow_cos_loss": 0.09220715248381406,
+      "eval_flow_mse_loss": 1.0823260478373529,
+      "eval_loss": 2.933465297288224,
+      "flow/cos_sim": 0.9077928694072308,
+      "flow/improvement_ratio": 0.9947618440524347,
+      "flow/mag_ratio_mean": 0.8988318181495423,
+      "flow/mag_ratio_std": 0.08265599157256104,
+      "step": 8192
+    },
+    {
+      "epoch": 0.353050186394294,
+      "eval_bleu": 0.4462124473905187,
+      "eval_ce_clean_loss": 0.017575070791160947,
+      "eval_ce_pred_loss": 2.586446302277701,
+      "eval_flow_cos_loss": 0.09220715248381406,
+      "eval_flow_mse_loss": 1.0823260478373529,
+      "eval_loss": 2.933465297288224,
+      "eval_runtime": 205.9836,
+      "eval_samples_per_second": 145.643,
+      "eval_steps_per_second": 2.277,
+      "flow/cos_sim": 0.9077928694072308,
+      "flow/improvement_ratio": 0.9947618440524347,
+      "flow/mag_ratio_mean": 0.8988318181495423,
+      "flow/mag_ratio_std": 0.08265599157256104,
+      "step": 8192
+    },
+    {
+      "epoch": 0.3971814596935807,
+      "grad_norm": 1.6591744422912598,
+      "learning_rate": 6.997821756319211e-05,
+      "loss": 2.97641921043396,
+      "step": 9216
+    },
+    {
+      "epoch": 0.3971814596935807,
+      "eval_bleu": 0.4548893990902779,
+      "eval_ce_clean_loss": 0.014087324782308421,
+      "eval_ce_pred_loss": 2.5131919986403575,
+      "eval_flow_cos_loss": 0.08636398176585179,
+      "eval_flow_mse_loss": 1.073010201901515,
+      "eval_loss": 2.867922893211023,
+      "flow/cos_sim": 0.9136360249539682,
+      "flow/improvement_ratio": 0.9953014714631445,
+      "flow/mag_ratio_mean": 0.9083017234100716,
+      "flow/mag_ratio_std": 0.08202346263409678,
+      "step": 9216
+    },
+    {
+      "epoch": 0.3971814596935807,
+      "eval_bleu": 0.4548893990902779,
+      "eval_ce_clean_loss": 0.014087324782308421,
+      "eval_ce_pred_loss": 2.5131919986403575,
+      "eval_flow_cos_loss": 0.08636398176585179,
+      "eval_flow_mse_loss": 1.073010201901515,
+      "eval_loss": 2.867922893211023,
+      "eval_runtime": 205.454,
+      "eval_samples_per_second": 146.018,
+      "eval_steps_per_second": 2.283,
+      "flow/cos_sim": 0.9136360249539682,
+      "flow/improvement_ratio": 0.9953014714631445,
+      "flow/mag_ratio_mean": 0.9083017234100716,
+      "flow/mag_ratio_std": 0.08202346263409678,
+      "step": 9216
+    },
+    {
+      "epoch": 0.44131273299286744,
+      "grad_norm": 2.6923091411590576,
+      "learning_rate": 6.315061173955019e-05,
+      "loss": 2.924818515777588,
+      "step": 10240
+    },
+    {
+      "epoch": 0.44131273299286744,
+      "eval_bleu": 0.4700031951689637,
+      "eval_ce_clean_loss": 0.011653113022033593,
+      "eval_ce_pred_loss": 2.5109867228627967,
+      "eval_flow_cos_loss": 0.08097743840296386,
+      "eval_flow_mse_loss": 1.0633719702010977,
+      "eval_loss": 2.8529601102190485,
+      "flow/cos_sim": 0.9190225931627156,
+      "flow/improvement_ratio": 0.9958856232893238,
+      "flow/mag_ratio_mean": 0.9080375746877463,
+      "flow/mag_ratio_std": 0.07999324749337076,
+      "step": 10240
+    },
+    {
+      "epoch": 0.44131273299286744,
+      "eval_bleu": 0.4700031951689637,
+      "eval_ce_clean_loss": 0.011653113022033593,
+      "eval_ce_pred_loss": 2.5109867228627967,
+      "eval_flow_cos_loss": 0.08097743840296386,
+      "eval_flow_mse_loss": 1.0633719702010977,
+      "eval_loss": 2.8529601102190485,
+      "eval_runtime": 203.8367,
+      "eval_samples_per_second": 147.177,
+      "eval_steps_per_second": 2.301,
+      "flow/cos_sim": 0.9190225931627156,
+      "flow/improvement_ratio": 0.9958856232893238,
+      "flow/mag_ratio_mean": 0.9080375746877463,
+      "flow/mag_ratio_std": 0.07999324749337076,
+      "step": 10240
+    },
+    {
+      "epoch": 0.4854440062921542,
+      "grad_norm": 3.9323318004608154,
+      "learning_rate": 5.604035379537632e-05,
+      "loss": 2.895775556564331,
+      "step": 11264
+    },
+    {
+      "epoch": 0.4854440062921542,
+      "eval_bleu": 0.4627536040081024,
+      "eval_ce_clean_loss": 0.009901690839934769,
+      "eval_ce_pred_loss": 2.51465770151061,
+      "eval_flow_cos_loss": 0.07650925458939091,
+      "eval_flow_mse_loss": 1.041963977218945,
+      "eval_loss": 2.8312533544833216,
+      "flow/cos_sim": 0.9234907618209497,
+      "flow/improvement_ratio": 0.9943228665191227,
+      "flow/mag_ratio_mean": 0.9196320714981063,
+      "flow/mag_ratio_std": 0.07909934378381986,
+      "step": 11264
+    },
+    {
+      "epoch": 0.4854440062921542,
+      "eval_bleu": 0.4627536040081024,
+      "eval_ce_clean_loss": 0.009901690839934769,
+      "eval_ce_pred_loss": 2.51465770151061,
+      "eval_flow_cos_loss": 0.07650925458939091,
+      "eval_flow_mse_loss": 1.041963977218945,
+      "eval_loss": 2.8312533544833216,
+      "eval_runtime": 203.4569,
+      "eval_samples_per_second": 147.451,
+      "eval_steps_per_second": 2.305,
+      "flow/cos_sim": 0.9234907618209497,
+      "flow/improvement_ratio": 0.9943228665191227,
+      "flow/mag_ratio_mean": 0.9196320714981063,
+      "flow/mag_ratio_std": 0.07909934378381986,
+      "step": 11264
+    },
+    {
+      "epoch": 0.5295752795914409,
+      "grad_norm": 1.9154846668243408,
+      "learning_rate": 4.881032966918056e-05,
+      "loss": 2.879368305206299,
+      "step": 12288
+    },
+    {
+      "epoch": 0.5295752795914409,
+      "eval_bleu": 0.4667095049087505,
+      "eval_ce_clean_loss": 0.008838278966258838,
+      "eval_ce_pred_loss": 2.4798952907895737,
+      "eval_flow_cos_loss": 0.07372279336521112,
+      "eval_flow_mse_loss": 1.0375378379689606,
+      "eval_loss": 2.8007334864724167,
+      "flow/cos_sim": 0.9262772229180407,
+      "flow/improvement_ratio": 0.9949917554346992,
+      "flow/mag_ratio_mean": 0.9212620670098994,
+      "flow/mag_ratio_std": 0.07803667050752558,
+      "step": 12288
+    },
+    {
+      "epoch": 0.5295752795914409,
+      "eval_bleu": 0.4667095049087505,
+      "eval_ce_clean_loss": 0.008838278966258838,
+      "eval_ce_pred_loss": 2.4798952907895737,
+      "eval_flow_cos_loss": 0.07372279336521112,
+      "eval_flow_mse_loss": 1.0375378379689606,
+      "eval_loss": 2.8007334864724167,
+      "eval_runtime": 202.9744,
+      "eval_samples_per_second": 147.802,
+      "eval_steps_per_second": 2.311,
+      "flow/cos_sim": 0.9262772229180407,
+      "flow/improvement_ratio": 0.9949917554346992,
+      "flow/mag_ratio_mean": 0.9212620670098994,
+      "flow/mag_ratio_std": 0.07803667050752558,
+      "step": 12288
+    },
+    {
+      "epoch": 0.5737065528907277,
+      "grad_norm": 2.099470376968384,
+      "learning_rate": 4.159825826870804e-05,
+      "loss": 2.84110951423645,
+      "step": 13312
+    },
+    {
+      "epoch": 0.5737065528907277,
+      "eval_bleu": 0.4697937916499978,
+      "eval_ce_clean_loss": 0.008110439863556357,
+      "eval_ce_pred_loss": 2.445156754207001,
+      "eval_flow_cos_loss": 0.07064609612419662,
+      "eval_flow_mse_loss": 1.030803042942527,
+      "eval_loss": 2.7681847221053233,
+      "flow/cos_sim": 0.9293539301672978,
+      "flow/improvement_ratio": 0.9955378606883701,
+      "flow/mag_ratio_mean": 0.9253565624578676,
+      "flow/mag_ratio_std": 0.07775539313869945,
+      "step": 13312
+    },
+    {
+      "epoch": 0.5737065528907277,
+      "eval_bleu": 0.4697937916499978,
+      "eval_ce_clean_loss": 0.008110439863556357,
+      "eval_ce_pred_loss": 2.445156754207001,
+      "eval_flow_cos_loss": 0.07064609612419662,
+      "eval_flow_mse_loss": 1.030803042942527,
+      "eval_loss": 2.7681847221053233,
+      "eval_runtime": 202.522,
+      "eval_samples_per_second": 148.132,
+      "eval_steps_per_second": 2.316,
+      "flow/cos_sim": 0.9293539301672978,
+      "flow/improvement_ratio": 0.9955378606883701,
+      "flow/mag_ratio_mean": 0.9253565624578676,
+      "flow/mag_ratio_std": 0.07775539313869945,
+      "step": 13312
+    },
+    {
+      "epoch": 0.6178378261900145,
+      "grad_norm": 5.420510292053223,
+      "learning_rate": 3.456935793454373e-05,
+      "loss": 2.829457998275757,
+      "step": 14336
+    },
+    {
+      "epoch": 0.6178378261900145,
+      "eval_bleu": 0.47719369632160064,
+      "eval_ce_clean_loss": 0.007385544868102714,
+      "eval_ce_pred_loss": 2.418667951880742,
+      "eval_flow_cos_loss": 0.06978921110886754,
+      "eval_flow_mse_loss": 1.0323392859399954,
+      "eval_loss": 2.7502396734538617,
+      "flow/cos_sim": 0.9302108099719862,
+      "flow/improvement_ratio": 0.9951674874657507,
+      "flow/mag_ratio_mean": 0.9268048170533008,
+      "flow/mag_ratio_std": 0.07696014680842092,
+      "step": 14336
+    },
+    {
+      "epoch": 0.6178378261900145,
+      "eval_bleu": 0.47719369632160064,
+      "eval_ce_clean_loss": 0.007385544868102714,
+      "eval_ce_pred_loss": 2.418667951880742,
+      "eval_flow_cos_loss": 0.06978921110886754,
+      "eval_flow_mse_loss": 1.0323392859399954,
+      "eval_loss": 2.7502396734538617,
+      "eval_runtime": 202.3423,
+      "eval_samples_per_second": 148.264,
+      "eval_steps_per_second": 2.318,
+      "flow/cos_sim": 0.9302108099719862,
+      "flow/improvement_ratio": 0.9951674874657507,
+      "flow/mag_ratio_mean": 0.9268048170533008,
+      "flow/mag_ratio_std": 0.07696014680842092,
+      "step": 14336
+    }
+  ],
+  "logging_steps": 1024,
+  "max_steps": 23204,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 1024,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints-v5.6/checkpoint-14336/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8469bbc81a2ba0be2f5b44007faafd15c75615abe30f4f4e56171816d31caa5b
+size 5137