Upload folder using huggingface_hub

Browse files

Files changed (10) hide show

.gitattributes +1 -0
checkpoints-v5.12-d/checkpoint-11264/ema.safetensors +3 -0
checkpoints-v5.12-d/checkpoint-11264/eval_state.json +3 -0
checkpoints-v5.12-d/checkpoint-11264/model.safetensors +3 -0
checkpoints-v5.12-d/checkpoint-11264/optimizer.pt +3 -0
checkpoints-v5.12-d/checkpoint-11264/rng_state.pth +3 -0
checkpoints-v5.12-d/checkpoint-11264/scaler.pt +3 -0
checkpoints-v5.12-d/checkpoint-11264/scheduler.pt +3 -0
checkpoints-v5.12-d/checkpoint-11264/trainer_state.json +452 -0
checkpoints-v5.12-d/checkpoint-11264/training_args.bin +3 -0

.gitattributes CHANGED Viewed

@@ -58,3 +58,4 @@ checkpoints-v5.11-c/checkpoint-4096/eval_state.json filter=lfs diff=lfs merge=lf
 checkpoints-v5.11-c/checkpoint-10240/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v5.12/checkpoint-11264/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v5.12-b/checkpoint-12288/eval_state.json filter=lfs diff=lfs merge=lfs -text

 checkpoints-v5.11-c/checkpoint-10240/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v5.12/checkpoint-11264/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v5.12-b/checkpoint-12288/eval_state.json filter=lfs diff=lfs merge=lfs -text
+checkpoints-v5.12-d/checkpoint-11264/eval_state.json filter=lfs diff=lfs merge=lfs -text

checkpoints-v5.12-d/checkpoint-11264/ema.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ff2c287cfbc0680fbc742cfd3b3d98ced769ce0fca34c8b873215028e822e7ac
+size 55150648

checkpoints-v5.12-d/checkpoint-11264/eval_state.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d83de29e9b296b79e58982b06b9fdba81b55551dad9aa1fc3c5795e63941f441
+size 60402110

checkpoints-v5.12-d/checkpoint-11264/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bfb9ad82d82f195f05b8476f49698a57aa9805c6458fd921309ddf70c4aa9c12
+size 55150680

checkpoints-v5.12-d/checkpoint-11264/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fafe55662b1f06d23c8a32babd353903247708abc95c990610cfbc805c69fbfd
+size 77725643

checkpoints-v5.12-d/checkpoint-11264/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:50310c5f8d737208cf5a23571aa56c041c1d6c581482c803aaf1740270054c7b
+size 14645

checkpoints-v5.12-d/checkpoint-11264/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:065d922bc11ff2a94589bcc5642e29bc09b304d1f0905c9da11e166ed16a7e36
+size 1383

checkpoints-v5.12-d/checkpoint-11264/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6d4fb09a735654b7310c6b8e8c4da0b9a798d3d75aadadc24eb1116ac42560a1
+size 1465

checkpoints-v5.12-d/checkpoint-11264/trainer_state.json ADDED Viewed

	@@ -0,0 +1,452 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.4854440062921542,
+  "eval_steps": 1024,
+  "global_step": 11264,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.04413127329928675,
+      "grad_norm": 2.038553237915039,
+      "learning_rate": 9.990234375e-05,
+      "loss": 19.116348266601562,
+      "step": 1024
+    },
+    {
+      "epoch": 0.04413127329928675,
+      "eval_bleu": 0.039732067051066695,
+      "eval_ce_clean_loss": 4.13267669443891,
+      "eval_ce_pred_loss": 5.6788923694635,
+      "eval_flow_consistency_loss": 0.1950276622703589,
+      "eval_flow_mse_loss": 0.9625383740040794,
+      "eval_loss": 13.782036799611822,
+      "flow/cos_sim": 0.6097117881022537,
+      "flow/improvement_ratio": 0.9951152096170861,
+      "flow/mag_ratio_mean": 0.6029274431881366,
+      "flow/mag_ratio_std": 0.07887839422678389,
+      "step": 1024
+    },
+    {
+      "epoch": 0.04413127329928675,
+      "eval_bleu": 0.039732067051066695,
+      "eval_ce_clean_loss": 4.13267669443891,
+      "eval_ce_pred_loss": 5.6788923694635,
+      "eval_flow_consistency_loss": 0.1950276622703589,
+      "eval_flow_mse_loss": 0.9625383740040794,
+      "eval_loss": 13.782036799611822,
+      "eval_runtime": 215.0629,
+      "eval_samples_per_second": 139.494,
+      "eval_steps_per_second": 2.181,
+      "flow/cos_sim": 0.6097117881022537,
+      "flow/improvement_ratio": 0.9951152096170861,
+      "flow/mag_ratio_mean": 0.6029274431881366,
+      "flow/mag_ratio_std": 0.07887839422678389,
+      "step": 1024
+    },
+    {
+      "epoch": 0.0882625465985735,
+      "grad_norm": 1.9656314849853516,
+      "learning_rate": 9.9476028157316e-05,
+      "loss": 11.777094841003418,
+      "step": 2048
+    },
+    {
+      "epoch": 0.0882625465985735,
+      "eval_bleu": 0.1985087306440071,
+      "eval_ce_clean_loss": 1.7023619802267567,
+      "eval_ce_pred_loss": 3.9720938830995864,
+      "eval_flow_consistency_loss": 0.1408283794676063,
+      "eval_flow_mse_loss": 1.04884721094103,
+      "eval_loss": 10.338242846002965,
+      "flow/cos_sim": 0.6300127182179677,
+      "flow/improvement_ratio": 0.9940009605147437,
+      "flow/mag_ratio_mean": 0.5702297092754958,
+      "flow/mag_ratio_std": 0.072333246040573,
+      "step": 2048
+    },
+    {
+      "epoch": 0.0882625465985735,
+      "eval_bleu": 0.1985087306440071,
+      "eval_ce_clean_loss": 1.7023619802267567,
+      "eval_ce_pred_loss": 3.9720938830995864,
+      "eval_flow_consistency_loss": 0.1408283794676063,
+      "eval_flow_mse_loss": 1.04884721094103,
+      "eval_loss": 10.338242846002965,
+      "eval_runtime": 211.2304,
+      "eval_samples_per_second": 142.025,
+      "eval_steps_per_second": 2.22,
+      "flow/cos_sim": 0.6300127182179677,
+      "flow/improvement_ratio": 0.9940009605147437,
+      "flow/mag_ratio_mean": 0.5702297092754958,
+      "flow/mag_ratio_std": 0.072333246040573,
+      "step": 2048
+    },
+    {
+      "epoch": 0.13239381989786023,
+      "grad_norm": 5.308600425720215,
+      "learning_rate": 9.7915094488941e-05,
+      "loss": 9.582409858703613,
+      "step": 3072
+    },
+    {
+      "epoch": 0.13239381989786023,
+      "eval_bleu": 0.3247645224146696,
+      "eval_ce_clean_loss": 0.7219214983332132,
+      "eval_ce_pred_loss": 3.1327726820638695,
+      "eval_flow_consistency_loss": 0.16620076652655977,
+      "eval_flow_mse_loss": 1.0829808780633565,
+      "eval_loss": 8.716904335184646,
+      "flow/cos_sim": 0.6237040868700187,
+      "flow/improvement_ratio": 0.9933133807772004,
+      "flow/mag_ratio_mean": 0.5706152112753407,
+      "flow/mag_ratio_std": 0.08010032150282789,
+      "step": 3072
+    },
+    {
+      "epoch": 0.13239381989786023,
+      "eval_bleu": 0.3247645224146696,
+      "eval_ce_clean_loss": 0.7219214983332132,
+      "eval_ce_pred_loss": 3.1327726820638695,
+      "eval_flow_consistency_loss": 0.16620076652655977,
+      "eval_flow_mse_loss": 1.0829808780633565,
+      "eval_loss": 8.716904335184646,
+      "eval_runtime": 212.2292,
+      "eval_samples_per_second": 141.357,
+      "eval_steps_per_second": 2.21,
+      "flow/cos_sim": 0.6237040868700187,
+      "flow/improvement_ratio": 0.9933133807772004,
+      "flow/mag_ratio_mean": 0.5706152112753407,
+      "flow/mag_ratio_std": 0.08010032150282789,
+      "step": 3072
+    },
+    {
+      "epoch": 0.176525093197147,
+      "grad_norm": 5.425384521484375,
+      "learning_rate": 9.534693146185996e-05,
+      "loss": 8.547163009643555,
+      "step": 4096
+    },
+    {
+      "epoch": 0.176525093197147,
+      "eval_bleu": 0.38984014369723496,
+      "eval_ce_clean_loss": 0.37213672961253347,
+      "eval_ce_pred_loss": 2.762043069928948,
+      "eval_flow_consistency_loss": 0.18075827240689732,
+      "eval_flow_mse_loss": 1.105186075162786,
+      "eval_loss": 8.024202514558967,
+      "flow/cos_sim": 0.6414477886167417,
+      "flow/improvement_ratio": 0.9935639341756988,
+      "flow/mag_ratio_mean": 0.6027017848323911,
+      "flow/mag_ratio_std": 0.10345381215564224,
+      "step": 4096
+    },
+    {
+      "epoch": 0.176525093197147,
+      "eval_bleu": 0.38984014369723496,
+      "eval_ce_clean_loss": 0.37213672961253347,
+      "eval_ce_pred_loss": 2.762043069928948,
+      "eval_flow_consistency_loss": 0.18075827240689732,
+      "eval_flow_mse_loss": 1.105186075162786,
+      "eval_loss": 8.024202514558967,
+      "eval_runtime": 213.7233,
+      "eval_samples_per_second": 140.368,
+      "eval_steps_per_second": 2.194,
+      "flow/cos_sim": 0.6414477886167417,
+      "flow/improvement_ratio": 0.9935639341756988,
+      "flow/mag_ratio_mean": 0.6027017848323911,
+      "flow/mag_ratio_std": 0.10345381215564224,
+      "step": 4096
+    },
+    {
+      "epoch": 0.22065636649643372,
+      "grad_norm": 2.41796612739563,
+      "learning_rate": 9.18264920723673e-05,
+      "loss": 8.046272277832031,
+      "step": 5120
+    },
+    {
+      "epoch": 0.22065636649643372,
+      "eval_bleu": 0.4269962488074079,
+      "eval_ce_clean_loss": 0.22250529323051224,
+      "eval_ce_pred_loss": 2.52222455717099,
+      "eval_flow_consistency_loss": 0.19593878185698219,
+      "eval_flow_mse_loss": 1.1271444219770208,
+      "eval_loss": 7.603771384590979,
+      "flow/cos_sim": 0.6573738410020433,
+      "flow/improvement_ratio": 0.9931685245875865,
+      "flow/mag_ratio_mean": 0.6232040871435137,
+      "flow/mag_ratio_std": 0.1273987617478696,
+      "step": 5120
+    },
+    {
+      "epoch": 0.22065636649643372,
+      "eval_bleu": 0.4269962488074079,
+      "eval_ce_clean_loss": 0.22250529323051224,
+      "eval_ce_pred_loss": 2.52222455717099,
+      "eval_flow_consistency_loss": 0.19593878185698219,
+      "eval_flow_mse_loss": 1.1271444219770208,
+      "eval_loss": 7.603771384590979,
+      "eval_runtime": 214.8653,
+      "eval_samples_per_second": 139.622,
+      "eval_steps_per_second": 2.183,
+      "flow/cos_sim": 0.6573738410020433,
+      "flow/improvement_ratio": 0.9931685245875865,
+      "flow/mag_ratio_mean": 0.6232040871435137,
+      "flow/mag_ratio_std": 0.1273987617478696,
+      "step": 5120
+    },
+    {
+      "epoch": 0.26478763979572045,
+      "grad_norm": 1.1386805772781372,
+      "learning_rate": 8.742770483354739e-05,
+      "loss": 7.718966484069824,
+      "step": 6144
+    },
+    {
+      "epoch": 0.26478763979572045,
+      "eval_bleu": 0.45200325543285325,
+      "eval_ce_clean_loss": 0.14794303721456387,
+      "eval_ce_pred_loss": 2.4048866803712174,
+      "eval_flow_consistency_loss": 0.199048015068589,
+      "eval_flow_mse_loss": 1.1586259213337766,
+      "eval_loss": 7.432994374842532,
+      "flow/cos_sim": 0.6705918376888039,
+      "flow/improvement_ratio": 0.9931476895234732,
+      "flow/mag_ratio_mean": 0.6413707395098103,
+      "flow/mag_ratio_std": 0.15463794561337307,
+      "step": 6144
+    },
+    {
+      "epoch": 0.26478763979572045,
+      "eval_bleu": 0.45200325543285325,
+      "eval_ce_clean_loss": 0.14794303721456387,
+      "eval_ce_pred_loss": 2.4048866803712174,
+      "eval_flow_consistency_loss": 0.199048015068589,
+      "eval_flow_mse_loss": 1.1586259213337766,
+      "eval_loss": 7.432994374842532,
+      "eval_runtime": 216.1458,
+      "eval_samples_per_second": 138.795,
+      "eval_steps_per_second": 2.17,
+      "flow/cos_sim": 0.6705918376888039,
+      "flow/improvement_ratio": 0.9931476895234732,
+      "flow/mag_ratio_mean": 0.6413707395098103,
+      "flow/mag_ratio_std": 0.15463794561337307,
+      "step": 6144
+    },
+    {
+      "epoch": 0.30891891309500724,
+      "grad_norm": 1.685559630393982,
+      "learning_rate": 8.224294338515429e-05,
+      "loss": 7.478551387786865,
+      "step": 7168
+    },
+    {
+      "epoch": 0.30891891309500724,
+      "eval_bleu": 0.47262382157636046,
+      "eval_ce_clean_loss": 0.1026634483862279,
+      "eval_ce_pred_loss": 2.2614734185529923,
+      "eval_flow_consistency_loss": 0.1963230559566636,
+      "eval_flow_mse_loss": 1.1709739255752645,
+      "eval_loss": 7.164512433985403,
+      "flow/cos_sim": 0.6893295720696195,
+      "flow/improvement_ratio": 0.9945882230933542,
+      "flow/mag_ratio_mean": 0.6589329850190738,
+      "flow/mag_ratio_std": 0.16591570350025764,
+      "step": 7168
+    },
+    {
+      "epoch": 0.30891891309500724,
+      "eval_bleu": 0.47262382157636046,
+      "eval_ce_clean_loss": 0.1026634483862279,
+      "eval_ce_pred_loss": 2.2614734185529923,
+      "eval_flow_consistency_loss": 0.1963230559566636,
+      "eval_flow_mse_loss": 1.1709739255752645,
+      "eval_loss": 7.164512433985403,
+      "eval_runtime": 214.2809,
+      "eval_samples_per_second": 140.003,
+      "eval_steps_per_second": 2.189,
+      "flow/cos_sim": 0.6893295720696195,
+      "flow/improvement_ratio": 0.9945882230933542,
+      "flow/mag_ratio_mean": 0.6589329850190738,
+      "flow/mag_ratio_std": 0.16591570350025764,
+      "step": 7168
+    },
+    {
+      "epoch": 0.353050186394294,
+      "grad_norm": 2.3438243865966797,
+      "learning_rate": 7.638108666591397e-05,
+      "loss": 7.282435417175293,
+      "step": 8192
+    },
+    {
+      "epoch": 0.353050186394294,
+      "eval_bleu": 0.48247242017996667,
+      "eval_ce_clean_loss": 0.0744324490459743,
+      "eval_ce_pred_loss": 2.208017418633646,
+      "eval_flow_consistency_loss": 0.1824754606495534,
+      "eval_flow_mse_loss": 1.1967080605309655,
+      "eval_loss": 7.08688577050085,
+      "flow/cos_sim": 0.7036884038178906,
+      "flow/improvement_ratio": 0.9935994690923549,
+      "flow/mag_ratio_mean": 0.6751627674234956,
+      "flow/mag_ratio_std": 0.1714356316050995,
+      "step": 8192
+    },
+    {
+      "epoch": 0.353050186394294,
+      "eval_bleu": 0.48247242017996667,
+      "eval_ce_clean_loss": 0.0744324490459743,
+      "eval_ce_pred_loss": 2.208017418633646,
+      "eval_flow_consistency_loss": 0.1824754606495534,
+      "eval_flow_mse_loss": 1.1967080605309655,
+      "eval_loss": 7.08688577050085,
+      "eval_runtime": 212.925,
+      "eval_samples_per_second": 140.895,
+      "eval_steps_per_second": 2.203,
+      "flow/cos_sim": 0.7036884038178906,
+      "flow/improvement_ratio": 0.9935994690923549,
+      "flow/mag_ratio_mean": 0.6751627674234956,
+      "flow/mag_ratio_std": 0.1714356316050995,
+      "step": 8192
+    },
+    {
+      "epoch": 0.3971814596935807,
+      "grad_norm": 2.055161952972412,
+      "learning_rate": 6.997821756319211e-05,
+      "loss": 7.135042190551758,
+      "step": 9216
+    },
+    {
+      "epoch": 0.3971814596935807,
+      "eval_bleu": 0.49381586985650006,
+      "eval_ce_clean_loss": 0.056927993814192855,
+      "eval_ce_pred_loss": 2.1334348042636537,
+      "eval_flow_consistency_loss": 0.16043665452298325,
+      "eval_flow_mse_loss": 1.2075038003260647,
+      "eval_loss": 6.925378603213377,
+      "flow/cos_sim": 0.7191527315548488,
+      "flow/improvement_ratio": 0.9933768828540469,
+      "flow/mag_ratio_mean": 0.6927723053421802,
+      "flow/mag_ratio_std": 0.17456348653414103,
+      "step": 9216
+    },
+    {
+      "epoch": 0.3971814596935807,
+      "eval_bleu": 0.49381586985650006,
+      "eval_ce_clean_loss": 0.056927993814192855,
+      "eval_ce_pred_loss": 2.1334348042636537,
+      "eval_flow_consistency_loss": 0.16043665452298325,
+      "eval_flow_mse_loss": 1.2075038003260647,
+      "eval_loss": 6.925378603213377,
+      "eval_runtime": 213.7098,
+      "eval_samples_per_second": 140.377,
+      "eval_steps_per_second": 2.195,
+      "flow/cos_sim": 0.7191527315548488,
+      "flow/improvement_ratio": 0.9933768828540469,
+      "flow/mag_ratio_mean": 0.6927723053421802,
+      "flow/mag_ratio_std": 0.17456348653414103,
+      "step": 9216
+    },
+    {
+      "epoch": 0.44131273299286744,
+      "grad_norm": 2.5146536827087402,
+      "learning_rate": 6.314377890922702e-05,
+      "loss": 7.039995193481445,
+      "step": 10240
+    },
+    {
+      "epoch": 0.44131273299286744,
+      "eval_bleu": 0.5055961583335916,
+      "eval_ce_clean_loss": 0.0451891895478913,
+      "eval_ce_pred_loss": 2.0815138359313834,
+      "eval_flow_consistency_loss": 0.15014760644196956,
+      "eval_flow_mse_loss": 1.2102985005897244,
+      "eval_loss": 6.8111055502251014,
+      "flow/cos_sim": 0.7314399324500485,
+      "flow/improvement_ratio": 0.994162238864248,
+      "flow/mag_ratio_mean": 0.7037763519327778,
+      "flow/mag_ratio_std": 0.17878205203679579,
+      "step": 10240
+    },
+    {
+      "epoch": 0.44131273299286744,
+      "eval_bleu": 0.5055961583335916,
+      "eval_ce_clean_loss": 0.0451891895478913,
+      "eval_ce_pred_loss": 2.0815138359313834,
+      "eval_flow_consistency_loss": 0.15014760644196956,
+      "eval_flow_mse_loss": 1.2102985005897244,
+      "eval_loss": 6.8111055502251014,
+      "eval_runtime": 212.8216,
+      "eval_samples_per_second": 140.963,
+      "eval_steps_per_second": 2.204,
+      "flow/cos_sim": 0.7314399324500485,
+      "flow/improvement_ratio": 0.994162238864248,
+      "flow/mag_ratio_mean": 0.7037763519327778,
+      "flow/mag_ratio_std": 0.17878205203679579,
+      "step": 10240
+    },
+    {
+      "epoch": 0.4854440062921542,
+      "grad_norm": 2.695807695388794,
+      "learning_rate": 5.604035379537632e-05,
+      "loss": 6.9608588218688965,
+      "step": 11264
+    },
+    {
+      "epoch": 0.4854440062921542,
+      "eval_bleu": 0.5050107855145878,
+      "eval_ce_clean_loss": 0.037382824926265774,
+      "eval_ce_pred_loss": 2.0364808370309597,
+      "eval_flow_consistency_loss": 0.1392418243515212,
+      "eval_flow_mse_loss": 1.2183054754220601,
+      "eval_loss": 6.720304502352977,
+      "flow/cos_sim": 0.7398705089778534,
+      "flow/improvement_ratio": 0.9952888945018304,
+      "flow/mag_ratio_mean": 0.712336166072756,
+      "flow/mag_ratio_std": 0.18000422529320217,
+      "step": 11264
+    },
+    {
+      "epoch": 0.4854440062921542,
+      "eval_bleu": 0.5050107855145878,
+      "eval_ce_clean_loss": 0.037382824926265774,
+      "eval_ce_pred_loss": 2.0364808370309597,
+      "eval_flow_consistency_loss": 0.1392418243515212,
+      "eval_flow_mse_loss": 1.2183054754220601,
+      "eval_loss": 6.720304502352977,
+      "eval_runtime": 212.094,
+      "eval_samples_per_second": 141.447,
+      "eval_steps_per_second": 2.211,
+      "flow/cos_sim": 0.7398705089778534,
+      "flow/improvement_ratio": 0.9952888945018304,
+      "flow/mag_ratio_mean": 0.712336166072756,
+      "flow/mag_ratio_std": 0.18000422529320217,
+      "step": 11264
+    }
+  ],
+  "logging_steps": 1024,
+  "max_steps": 23204,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 1024,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints-v5.12-d/checkpoint-11264/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8469bbc81a2ba0be2f5b44007faafd15c75615abe30f4f4e56171816d31caa5b
+size 5137