Upload folder using huggingface_hub

Browse files

Files changed (10) hide show

.gitattributes +1 -0
checkpoints-v5.13-c/checkpoint-11264/ema.safetensors +3 -0
checkpoints-v5.13-c/checkpoint-11264/eval_state.json +3 -0
checkpoints-v5.13-c/checkpoint-11264/model.safetensors +3 -0
checkpoints-v5.13-c/checkpoint-11264/optimizer.pt +3 -0
checkpoints-v5.13-c/checkpoint-11264/rng_state.pth +3 -0
checkpoints-v5.13-c/checkpoint-11264/scaler.pt +3 -0
checkpoints-v5.13-c/checkpoint-11264/scheduler.pt +3 -0
checkpoints-v5.13-c/checkpoint-11264/trainer_state.json +430 -0
checkpoints-v5.13-c/checkpoint-11264/training_args.bin +3 -0

.gitattributes CHANGED Viewed

@@ -63,3 +63,4 @@ checkpoints-v5.13/checkpoint-10240/eval_state.json filter=lfs diff=lfs merge=lfs
 checkpoints-v5.13-b/checkpoint-10240/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v4.6+/checkpoint-13312/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v4.6+/checkpoint-21504/eval_state.json filter=lfs diff=lfs merge=lfs -text

 checkpoints-v5.13-b/checkpoint-10240/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v4.6+/checkpoint-13312/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v4.6+/checkpoint-21504/eval_state.json filter=lfs diff=lfs merge=lfs -text
+checkpoints-v5.13-c/checkpoint-11264/eval_state.json filter=lfs diff=lfs merge=lfs -text

checkpoints-v5.13-c/checkpoint-11264/ema.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c1564b6d4f63286e8acd1dbfd5fa20cb1b509e064a1e5b274796da0667851918
+size 54599376

checkpoints-v5.13-c/checkpoint-11264/eval_state.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ec55c41e08740816ca781d286a8218ba7e4eb6abc62abe0616616de4bc214c66
+size 56142817

checkpoints-v5.13-c/checkpoint-11264/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f50acab56735a8798bce69ef09b870381291802102711f85e36f72b1422b88d4
+size 54599408

checkpoints-v5.13-c/checkpoint-11264/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:94c1957c5ec8c566f7ab98aacdc1ad546885ea44bde850fa889c1c22911bf0aa
+size 76550347

checkpoints-v5.13-c/checkpoint-11264/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3445e2029753be8bf32790ad2df6092dc63f2028e7603a9903f650b4f19cbab4
+size 14645

checkpoints-v5.13-c/checkpoint-11264/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:519e45a628186bdbcb09e971ade5f402fb12e109ab075b9f69e0e6257f05f429
+size 1383

checkpoints-v5.13-c/checkpoint-11264/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:21c700f8c7da85aa9d4c7cb7c4f2fe1f5cc1460165fd5b9ff6c072c94729a07e
+size 1465

checkpoints-v5.13-c/checkpoint-11264/trainer_state.json ADDED Viewed

	@@ -0,0 +1,430 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.4854440062921542,
+  "eval_steps": 1024,
+  "global_step": 11264,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.04413127329928675,
+      "grad_norm": 1.8746798038482666,
+      "learning_rate": 9.990234375e-05,
+      "loss": 11.335476875305176,
+      "step": 1024
+    },
+    {
+      "epoch": 0.04413127329928675,
+      "eval_bleu": 0.009675771979359812,
+      "eval_ce_clean_loss": 5.557726876313753,
+      "eval_ce_pred_loss": 6.627119795345803,
+      "eval_flow_mse_loss": 0.5579553266832316,
+      "eval_loss": 8.41214029926227,
+      "flow/cos_sim": 0.7140552083820676,
+      "flow/improvement_ratio": 0.9909712693838677,
+      "flow/mag_ratio_mean": 0.6811908379292437,
+      "flow/mag_ratio_std": 0.12295716503726394,
+      "step": 1024
+    },
+    {
+      "epoch": 0.04413127329928675,
+      "eval_bleu": 0.009675771979359812,
+      "eval_ce_clean_loss": 5.557726876313753,
+      "eval_ce_pred_loss": 6.627119795345803,
+      "eval_flow_mse_loss": 0.5579553266832316,
+      "eval_loss": 8.41214029926227,
+      "eval_runtime": 209.168,
+      "eval_samples_per_second": 143.425,
+      "eval_steps_per_second": 2.242,
+      "flow/cos_sim": 0.7140552083820676,
+      "flow/improvement_ratio": 0.9909712693838677,
+      "flow/mag_ratio_mean": 0.6811908379292437,
+      "flow/mag_ratio_std": 0.12295716503726394,
+      "step": 1024
+    },
+    {
+      "epoch": 0.0882625465985735,
+      "grad_norm": 1.7705103158950806,
+      "learning_rate": 9.9476028157316e-05,
+      "loss": 7.429768085479736,
+      "step": 2048
+    },
+    {
+      "epoch": 0.0882625465985735,
+      "eval_bleu": 0.06525691509427865,
+      "eval_ce_clean_loss": 2.860388283028023,
+      "eval_ce_pred_loss": 5.240253638611165,
+      "eval_flow_mse_loss": 0.45478164507890306,
+      "eval_loss": 6.6618063353272134,
+      "flow/cos_sim": 0.8016271380219124,
+      "flow/improvement_ratio": 0.9943794359022112,
+      "flow/mag_ratio_mean": 0.7808856908192259,
+      "flow/mag_ratio_std": 0.13155144340257402,
+      "step": 2048
+    },
+    {
+      "epoch": 0.0882625465985735,
+      "eval_bleu": 0.06525691509427865,
+      "eval_ce_clean_loss": 2.860388283028023,
+      "eval_ce_pred_loss": 5.240253638611165,
+      "eval_flow_mse_loss": 0.45478164507890306,
+      "eval_loss": 6.6618063353272134,
+      "eval_runtime": 203.4463,
+      "eval_samples_per_second": 147.459,
+      "eval_steps_per_second": 2.305,
+      "flow/cos_sim": 0.8016271380219124,
+      "flow/improvement_ratio": 0.9943794359022112,
+      "flow/mag_ratio_mean": 0.7808856908192259,
+      "flow/mag_ratio_std": 0.13155144340257402,
+      "step": 2048
+    },
+    {
+      "epoch": 0.13239381989786023,
+      "grad_norm": 5.890896797180176,
+      "learning_rate": 9.791307026072513e-05,
+      "loss": 6.48097038269043,
+      "step": 3072
+    },
+    {
+      "epoch": 0.13239381989786023,
+      "eval_bleu": 0.1386991635405654,
+      "eval_ce_clean_loss": 1.702302875040945,
+      "eval_ce_pred_loss": 4.602994439952663,
+      "eval_flow_mse_loss": 0.4992917452666805,
+      "eval_loss": 6.134915745334585,
+      "flow/cos_sim": 0.7965366973805783,
+      "flow/improvement_ratio": 0.9947982580422847,
+      "flow/mag_ratio_mean": 0.7845185148690555,
+      "flow/mag_ratio_std": 0.125204219508654,
+      "step": 3072
+    },
+    {
+      "epoch": 0.13239381989786023,
+      "eval_bleu": 0.1386991635405654,
+      "eval_ce_clean_loss": 1.702302875040945,
+      "eval_ce_pred_loss": 4.602994439952663,
+      "eval_flow_mse_loss": 0.4992917452666805,
+      "eval_loss": 6.134915745334585,
+      "eval_runtime": 203.864,
+      "eval_samples_per_second": 147.157,
+      "eval_steps_per_second": 2.301,
+      "flow/cos_sim": 0.7965366973805783,
+      "flow/improvement_ratio": 0.9947982580422847,
+      "flow/mag_ratio_mean": 0.7845185148690555,
+      "flow/mag_ratio_std": 0.125204219508654,
+      "step": 3072
+    },
+    {
+      "epoch": 0.176525093197147,
+      "grad_norm": 4.509634494781494,
+      "learning_rate": 9.53439476074686e-05,
+      "loss": 6.0418806076049805,
+      "step": 4096
+    },
+    {
+      "epoch": 0.176525093197147,
+      "eval_bleu": 0.19298153591252967,
+      "eval_ce_clean_loss": 1.0902007042980397,
+      "eval_ce_pred_loss": 4.217226792500218,
+      "eval_flow_mse_loss": 0.5135862580748763,
+      "eval_loss": 5.779789580973481,
+      "flow/cos_sim": 0.8044289251380383,
+      "flow/improvement_ratio": 0.9947967400937192,
+      "flow/mag_ratio_mean": 0.7930461671560812,
+      "flow/mag_ratio_std": 0.10969439625485873,
+      "step": 4096
+    },
+    {
+      "epoch": 0.176525093197147,
+      "eval_bleu": 0.19298153591252967,
+      "eval_ce_clean_loss": 1.0902007042980397,
+      "eval_ce_pred_loss": 4.217226792500218,
+      "eval_flow_mse_loss": 0.5135862580748763,
+      "eval_loss": 5.779789580973481,
+      "eval_runtime": 207.3299,
+      "eval_samples_per_second": 144.697,
+      "eval_steps_per_second": 2.262,
+      "flow/cos_sim": 0.8044289251380383,
+      "flow/improvement_ratio": 0.9947967400937192,
+      "flow/mag_ratio_mean": 0.7930461671560812,
+      "flow/mag_ratio_std": 0.10969439625485873,
+      "step": 4096
+    },
+    {
+      "epoch": 0.22065636649643372,
+      "grad_norm": 2.1950623989105225,
+      "learning_rate": 9.182261125213742e-05,
+      "loss": 5.785842418670654,
+      "step": 5120
+    },
+    {
+      "epoch": 0.22065636649643372,
+      "eval_bleu": 0.22607963706845424,
+      "eval_ce_clean_loss": 0.7473960584923148,
+      "eval_ce_pred_loss": 4.035209667962243,
+      "eval_flow_mse_loss": 0.5162926226028247,
+      "eval_loss": 5.599035447086099,
+      "flow/cos_sim": 0.8121183847567675,
+      "flow/improvement_ratio": 0.9950191848821985,
+      "flow/mag_ratio_mean": 0.8036270247085262,
+      "flow/mag_ratio_std": 0.09918517022054078,
+      "step": 5120
+    },
+    {
+      "epoch": 0.22065636649643372,
+      "eval_bleu": 0.22607963706845424,
+      "eval_ce_clean_loss": 0.7473960584923148,
+      "eval_ce_pred_loss": 4.035209667962243,
+      "eval_flow_mse_loss": 0.5162926226028247,
+      "eval_loss": 5.599035447086099,
+      "eval_runtime": 208.4843,
+      "eval_samples_per_second": 143.896,
+      "eval_steps_per_second": 2.25,
+      "flow/cos_sim": 0.8121183847567675,
+      "flow/improvement_ratio": 0.9950191848821985,
+      "flow/mag_ratio_mean": 0.8036270247085262,
+      "flow/mag_ratio_std": 0.09918517022054078,
+      "step": 5120
+    },
+    {
+      "epoch": 0.26478763979572045,
+      "grad_norm": 2.527547597885132,
+      "learning_rate": 8.742770483354739e-05,
+      "loss": 5.640994548797607,
+      "step": 6144
+    },
+    {
+      "epoch": 0.26478763979572045,
+      "eval_bleu": 0.25024694158657995,
+      "eval_ce_clean_loss": 0.5482296061032871,
+      "eval_ce_pred_loss": 3.863517429782892,
+      "eval_flow_mse_loss": 0.528831982917623,
+      "eval_loss": 5.460977965072274,
+      "flow/cos_sim": 0.8133240915310662,
+      "flow/improvement_ratio": 0.9949406057532663,
+      "flow/mag_ratio_mean": 0.8068851480351836,
+      "flow/mag_ratio_std": 0.09499853814461592,
+      "step": 6144
+    },
+    {
+      "epoch": 0.26478763979572045,
+      "eval_bleu": 0.25024694158657995,
+      "eval_ce_clean_loss": 0.5482296061032871,
+      "eval_ce_pred_loss": 3.863517429782892,
+      "eval_flow_mse_loss": 0.528831982917623,
+      "eval_loss": 5.460977965072274,
+      "eval_runtime": 207.4649,
+      "eval_samples_per_second": 144.603,
+      "eval_steps_per_second": 2.261,
+      "flow/cos_sim": 0.8133240915310662,
+      "flow/improvement_ratio": 0.9949406057532663,
+      "flow/mag_ratio_mean": 0.8068851480351836,
+      "flow/mag_ratio_std": 0.09499853814461592,
+      "step": 6144
+    },
+    {
+      "epoch": 0.30891891309500724,
+      "grad_norm": 5.2498579025268555,
+      "learning_rate": 8.224294338515429e-05,
+      "loss": 5.5075578689575195,
+      "step": 7168
+    },
+    {
+      "epoch": 0.30891891309500724,
+      "eval_bleu": 0.261643210772413,
+      "eval_ce_clean_loss": 0.41339854340055093,
+      "eval_ce_pred_loss": 3.799610239102134,
+      "eval_flow_mse_loss": 0.5193964989581851,
+      "eval_loss": 5.366067711478357,
+      "flow/cos_sim": 0.8201883253512352,
+      "flow/improvement_ratio": 0.9960052086346185,
+      "flow/mag_ratio_mean": 0.8124456131127852,
+      "flow/mag_ratio_std": 0.09041677221560529,
+      "step": 7168
+    },
+    {
+      "epoch": 0.30891891309500724,
+      "eval_bleu": 0.261643210772413,
+      "eval_ce_clean_loss": 0.41339854340055093,
+      "eval_ce_pred_loss": 3.799610239102134,
+      "eval_flow_mse_loss": 0.5193964989581851,
+      "eval_loss": 5.366067711478357,
+      "eval_runtime": 209.2917,
+      "eval_samples_per_second": 143.341,
+      "eval_steps_per_second": 2.241,
+      "flow/cos_sim": 0.8201883253512352,
+      "flow/improvement_ratio": 0.9960052086346185,
+      "flow/mag_ratio_mean": 0.8124456131127852,
+      "flow/mag_ratio_std": 0.09041677221560529,
+      "step": 7168
+    },
+    {
+      "epoch": 0.353050186394294,
+      "grad_norm": 2.9191665649414062,
+      "learning_rate": 7.638710244802891e-05,
+      "loss": 5.437148571014404,
+      "step": 8192
+    },
+    {
+      "epoch": 0.353050186394294,
+      "eval_bleu": 0.28415719827555364,
+      "eval_ce_clean_loss": 0.3232654255590459,
+      "eval_ce_pred_loss": 3.6486374203330163,
+      "eval_flow_mse_loss": 0.5425256899933317,
+      "eval_loss": 5.282679809944462,
+      "flow/cos_sim": 0.8185702726276699,
+      "flow/improvement_ratio": 0.9952687219516047,
+      "flow/mag_ratio_mean": 0.8090884212746041,
+      "flow/mag_ratio_std": 0.08737777136981106,
+      "step": 8192
+    },
+    {
+      "epoch": 0.353050186394294,
+      "eval_bleu": 0.28415719827555364,
+      "eval_ce_clean_loss": 0.3232654255590459,
+      "eval_ce_pred_loss": 3.6486374203330163,
+      "eval_flow_mse_loss": 0.5425256899933317,
+      "eval_loss": 5.282679809944462,
+      "eval_runtime": 208.6577,
+      "eval_samples_per_second": 143.776,
+      "eval_steps_per_second": 2.248,
+      "flow/cos_sim": 0.8185702726276699,
+      "flow/improvement_ratio": 0.9952687219516047,
+      "flow/mag_ratio_mean": 0.8090884212746041,
+      "flow/mag_ratio_std": 0.08737777136981106,
+      "step": 8192
+    },
+    {
+      "epoch": 0.3971814596935807,
+      "grad_norm": 2.471464157104492,
+      "learning_rate": 6.997172522088177e-05,
+      "loss": 5.372776985168457,
+      "step": 9216
+    },
+    {
+      "epoch": 0.3971814596935807,
+      "eval_bleu": 0.29918716664058487,
+      "eval_ce_clean_loss": 0.2656148538342925,
+      "eval_ce_pred_loss": 3.554174758732192,
+      "eval_flow_mse_loss": 0.550302877227889,
+      "eval_loss": 5.210395683866066,
+      "flow/cos_sim": 0.8200526506916038,
+      "flow/improvement_ratio": 0.9958431662272796,
+      "flow/mag_ratio_mean": 0.8059873981262321,
+      "flow/mag_ratio_std": 0.08501417428127993,
+      "step": 9216
+    },
+    {
+      "epoch": 0.3971814596935807,
+      "eval_bleu": 0.29918716664058487,
+      "eval_ce_clean_loss": 0.2656148538342925,
+      "eval_ce_pred_loss": 3.554174758732192,
+      "eval_flow_mse_loss": 0.550302877227889,
+      "eval_loss": 5.210395683866066,
+      "eval_runtime": 208.1178,
+      "eval_samples_per_second": 144.149,
+      "eval_steps_per_second": 2.254,
+      "flow/cos_sim": 0.8200526506916038,
+      "flow/improvement_ratio": 0.9958431662272796,
+      "flow/mag_ratio_mean": 0.8059873981262321,
+      "flow/mag_ratio_std": 0.08501417428127993,
+      "step": 9216
+    },
+    {
+      "epoch": 0.44131273299286744,
+      "grad_norm": 1.976932168006897,
+      "learning_rate": 6.314377890922702e-05,
+      "loss": 5.303058624267578,
+      "step": 10240
+    },
+    {
+      "epoch": 0.44131273299286744,
+      "eval_bleu": 0.30946760464565337,
+      "eval_ce_clean_loss": 0.21070461149917227,
+      "eval_ce_pred_loss": 3.506126376357414,
+      "eval_flow_mse_loss": 0.548877762578952,
+      "eval_loss": 5.156973743235379,
+      "flow/cos_sim": 0.8226377320950473,
+      "flow/improvement_ratio": 0.9961782912455642,
+      "flow/mag_ratio_mean": 0.8068670463968696,
+      "flow/mag_ratio_std": 0.08314187864441352,
+      "step": 10240
+    },
+    {
+      "epoch": 0.44131273299286744,
+      "eval_bleu": 0.30946760464565337,
+      "eval_ce_clean_loss": 0.21070461149917227,
+      "eval_ce_pred_loss": 3.506126376357414,
+      "eval_flow_mse_loss": 0.548877762578952,
+      "eval_loss": 5.156973743235379,
+      "eval_runtime": 208.8429,
+      "eval_samples_per_second": 143.649,
+      "eval_steps_per_second": 2.246,
+      "flow/cos_sim": 0.8226377320950473,
+      "flow/improvement_ratio": 0.9961782912455642,
+      "flow/mag_ratio_mean": 0.8068670463968696,
+      "flow/mag_ratio_std": 0.08314187864441352,
+      "step": 10240
+    },
+    {
+      "epoch": 0.4854440062921542,
+      "grad_norm": 3.2680165767669678,
+      "learning_rate": 5.603332356428589e-05,
+      "loss": 5.236223220825195,
+      "step": 11264
+    },
+    {
+      "epoch": 0.4854440062921542,
+      "eval_bleu": 0.312954579012866,
+      "eval_ce_clean_loss": 0.18226672127556953,
+      "eval_ce_pred_loss": 3.534468324962201,
+      "eval_flow_mse_loss": 0.5367274030185203,
+      "eval_loss": 5.148295871230331,
+      "flow/cos_sim": 0.8278299589146937,
+      "flow/improvement_ratio": 0.994940139464478,
+      "flow/mag_ratio_mean": 0.8156169755880767,
+      "flow/mag_ratio_std": 0.08319824889524659,
+      "step": 11264
+    },
+    {
+      "epoch": 0.4854440062921542,
+      "eval_bleu": 0.312954579012866,
+      "eval_ce_clean_loss": 0.18226672127556953,
+      "eval_ce_pred_loss": 3.534468324962201,
+      "eval_flow_mse_loss": 0.5367274030185203,
+      "eval_loss": 5.148295871230331,
+      "eval_runtime": 207.6767,
+      "eval_samples_per_second": 144.455,
+      "eval_steps_per_second": 2.258,
+      "flow/cos_sim": 0.8278299589146937,
+      "flow/improvement_ratio": 0.994940139464478,
+      "flow/mag_ratio_mean": 0.8156169755880767,
+      "flow/mag_ratio_std": 0.08319824889524659,
+      "step": 11264
+    }
+  ],
+  "logging_steps": 1024,
+  "max_steps": 23204,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 1024,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints-v5.13-c/checkpoint-11264/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8469bbc81a2ba0be2f5b44007faafd15c75615abe30f4f4e56171816d31caa5b
+size 5137